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似乎 所 有 人 嘴 边 都 挂 着 “大 数据 ”这 个 词 。 围 绕 大 数据 这 个 主题 开 
展 的 讨论 几乎 已 经 完全 压倒 了 传统 数据 仓库 的 风头 。 某 些 大 数据 狂热 
者 甚至 大 胆 预测 ， 在 不 久 的 将 来 ， 所 有 企业 数据 都 将 由 一 个 基于 
Apache Hadoop 的 系统 托管 ， 企 业 数 据 仓库 (EDW) 终 将 消亡 。 无 论 
如 何 ， 传 统 数据 仓库 架构 仍 在 不 断 发 展演 化 ， 这 一 点 不 容 置疑 。 一 年 
来 ， 我 一 直 在 撰写 相关 的 文章 和 博客 ， 但 它 真 的 会 消亡 吗 ? 我 认为 几 
率 很 小 。 实 际 上 ， 尽 管 所 有 人 都 在 讨论 某 种 技术 或 者 架构 可 能 会 胜 过 
另 一 种 技术 或 架构 ， 但 IBM 有 着 不 同 的 观点 。 在 IBM， 他 们 更 倾向 于 
从 “Hadoop 与 数据 仓库 密切 结合 "这 个 角度 来 探讨 问题 ， 两 者 可 以 说 是 
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试想 一 下 ， 对 于 采用 传统 数据 仓库 的 企业 而 言 ， 大 数据 带 来 的 机 
会 就 是 能 够 利用 过 去 无 法 通过 传统 仓库 架构 利用 的 数据 ， 但 传统 数据 
仓库 为 什么 不 能 承担 起 这 个 责任 ? 原因 是 多 方面 的 。 首 先 ， 数 据 仓库 
的 传统 架构 方式 采用 业务 系统 中 的 结构 化 数据 ， 用 它们 来 分 析 有 关 业 
务 的 方方面面 ， 对 这 些 数据 进行 清理 、 建 模 、 分 布 、 治 理 和 维护 ， 以 
便 执行 历史 分 析 。 无 论 是 从 结构 方面 考虑 ， 还 是 从 数据 摄取 速率 方面 
考虑 ， 我 们 在 数据 仓库 中 存储 的 数据 都 是 可 预测 的 。 相 比 之 下 ， 大 数 
据 是 不 可 预测 的 。 大 数据 的 结构 多 种 多 样 ， 对 于 EDW 来 说 数量 过 于 庞 
大 。 尤 其 要 考虑 的 是 ， 我 们 更 习惯 于 浏览 大 量 数据 来 查找 真正 需要 的 
信息 。 不 久之 后 可 能 又 会 决定 丢弃 这 些 数 据 ， 在 某 些 情 况 下 ， 这 些 数 
据 的 保存 期 限 可 能 会 更 短 。 如 果 我 们 决定 保留 所 有 这 些 数据 ， 则 需要 
使 用 比 EDW 更 经 济 的 解决 方案 来 存储 非 结构 化 数据 ， 以 便 将 来 使 用 这 
些 数据 进行 历史 分 析 ， 这 也 是 将 Hadoop 与 数据 仓库 结合 使 用 的 另 一 个 
论据 。 


本 书 通过 简单 而 完整 的 示例 ， 论 述 了 在 Hadoop 平 台 上 设计 和 实现 
数据 仓库 的 方法 。 将 传统 数据 仓库 建 模 与 SQL 开 发 的 简单 性 与 大 数据 
技术 相 结 合 ， 快 速 、 高 效 地 建立 可 扩展 的 数据 仓库 及 其 应 用 系统 。 


本 书 共 13 章 ， 主 要 内 容 包 括 数 据 仓 库 、Hadoop 及 其 生态 圈 的 相关 
概念 ， 使 用 Sqoop 从 关系 数据 库 全 量 或 增 量 抽取 数据 ， 使 用 Hive 进 行 数 
据 转 换 和 装载 处 理 ， 使 用 Oozie 调 度 作业 周期 性 执行 ， 使 用 Impala 进 行 
快速 联机 数据 分 析 ， 使 用 Hue 将 数据 可 视 化 ， 以 及 数据 仓库 中 的 渐变 
4 (SCD) 、 代 理 键 、 角 色 扮 演 维 度 、 层 次 维度 、 退 化 维度 、 无 事实 
的 事实 表 、 述 到 的 事实 、 累 积 的 度量 等 常见 问题 在 Hadoop 上 的 处 理 
等 。 

本 书 适 合 数 据 库 管 理 员 、 大 数据 技术 人 员 、Hadoop 技 术 人 员 、 数 
据 仓 库 技术 人 员 ， 也 适合 高 等 院 校 和 培训 学 校 相关 专业 的 师 生 教学 参 
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第 1 章 
< 数据 仓库 简介 > 


对 于 每 一 种 拷 术 ， 先 要 理解 相关 的 概念 和 它 之 所 以 出 现 的 原因 ， 
这 对 于 我 们 继续 深入 学 习 其 技术 细节 大 有 神 益 。 本 章 将 介绍 数据 仓库 
的 定义 ， 它 和 传统 操作 型 数据 库 应 用 的 区 别 ， 以 及 为 什么 我 们 需要 数 
据 仓 库 。 


在 对 数据 仓库 的 概念 有 了 一 个 基本 的 认识 后 ， 向 读者 介绍 四 种 常 
见 的 数据 仓库 架构 ， 然 后 说 明 ETL 这 个 重要 的 数据 仓库 概念 。 本 章 最 
后 概要 介绍 对 于 一 个 数据 仓库 的 基本 需求 和 数据 需求 。 


11 什么 是 数据 仓库 


数据 仓库 的 概念 可 以 追溯 到 20 世 纪 80 年 代 ， 当 时 IBM 的 研究 人 员 
开发 出 了 “商业 数据 仓库 ”。 本 质 上 ， 数 据 仓 库 试 图 提供 一 种 从 操作 型 
系统 到 决策 支持 环境 的 数据 流 架 构 模 型 。 数 据 仓 库 概 念 的 提出 ， 是 为 
了 解决 和 这 个 数据 流 相关 的 各 种 问题 ， 主 要 是 解决 多 重 数据 复制 带 来 
的 高 成 本 问题 。 在 没有 数据 仓库 的 时 代 ， 需 要 大 量 的 见 余 数据 来 支撑 
多 个 决策 支持 环境 。 在 大 组 织 里 ， 多 个 决策 支持 环境 独立 运作 是 典型 
的 情况 。 尽 管 每 个 环境 服务 于 不 同 的 用 户 ， 但 这 些 环境 经 常 需要 大 量 
相同 的 数据 。 处 理 过 程 收 集 、 清 洗 、 整 合 来 自 多 个 数据 源 的 数据 ， 并 
为 每 个 决策 支持 环境 做 部 分 数据 复制 。 数 据 源 通常 是 早已 存在 的 操作 
型 系统 ， 很 多 是 遗留 系统 。 此 外 ， 当 一 个 新 的 决策 支持 环境 形成 时 ， 
操作 型 系统 的 数据 经 常 被 再次 复 用 。 用 户 访 问 这 些 处 理 后 的 数据 。 


1.1.1 ”数据 仓库 的 定义 


数据 仓库 之 父 Bi Inmon 在 1991 年 出 版 的 Building the Data 
Warehouse 一 书 中 首次 提出 了 被 广 为 认 可 的 数据 仓库 定义 。Inmon 将 数 
据 仓库 描述 为 一 个 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 非 易 失 的 数 
据 集合 ， 用 于 支持 管理 者 的 决策 过 程 。 这 个 定义 有 些 复 杂 并 且 难 以 理 
解 。 下 面 我 们 将 它 分 解 开 来 进行 说 明 。 


。 面向 主题 


传统 的 操作 型 系统 是 围绕 组 织 的 功能 性 应 用 进行 组 织 的 ， 而 数据 
仓库 是 面向 主题 的 。 主 题 是 一 个 抽象 概念 ， 简 单 地 说 就 是 与 业务 相关 
的 数据 的 类 别 ， 每 一 个 主题 基本 对 应 一 个 宏观 的 分 析 领 域 。 数 据 仓库 
被 设计 成 辅助 人 们 分 析 效 据 。 例 如 ， 一 个 公司 要 分 析 销 售 数据 ， 融 可 
以 建立 一 个 专注 于 销售 的 数据 仓库 ， 使 用 这 个 数据 仓库 ， 就 可 以 回答 
类 似 于 “去 年 谁 是 我 们 这 款 产 品 的 最 佳 用 户 ” 这 样 的 问题 。 这 个 场景 
的 销售 ， 就 是 一 个 数据 主题 ， 而 这 种 通过 划分 主题 定义 数据 仓库 的 能 
力 ， 束 使 得 数据 仓库 是 面向 主题 的 。 主 题 域 是 对 某 个 主题 进行 分 析 后 
确定 的 主题 的 边界 ， 如 客户 、 销 售 、 产 品 都 是 主题 域 的 例子 。 


。 集成 


集成 的 概念 与 面向 主题 是 密切 相关 的 。 还 用 销售 的 例子 ， 假 设 公 
司 有 多 条 产品 线 和 多 种 产品 销售 渠道 ， 而 每 个 产品 线 都 有 自己 独立 的 
销售 数据 库 。 此 时 要 想 从 公司 层面 整体 分 析 销 售 数据 ， 必 须 将 多 个 分 
散 的 数据 产 统一 成 一 致 的 、 无 卜 义 的 数据 格式 后 ， 再 放置 到 数据 仓库 
中 。 因 此 数据 仓库 必须 能 够 解决 诸如 产品 命名 冲突 、 计 量 单位 不 一 致 
等 问题 。 当 完成 了 这 些 数据 整合 工作 后 ， 该 数据 仓库 就 可 称 为 是 集成 
的 。 


。 随时 间 变 化 


为 了 发 现 业务 变化 的 趋势 、 存 在 的 问题 ， 或 者 新 的 机 会 ， 需 要 分 
析 大 量 的 历史 数据 。 这 与 联机 事务 处 理 (OLTP) 系统 形成 鲜明 的 对 
比 。 联 机 事务 处 理 反 应 的 是 当前 时 间 点 的 数据 情况 ， 要 求 高 性 能 、 高 
并 发 和 极 短 的 响应 时 间 ， 出 于 这 样 的 需求 考虑 ， 联 机 事务 处 理 系统 中 
一 般 都 将 数据 依照 活跃 程度 分 级 ， 把 历史 数据 迁移 到 归档 数据 库 中 。 
而 数据 仓库 关注 的 是 数据 随时 间 变 化 的 情况 ， 并 且 能 反映 在 过 去 某 个 
时 间 点 的 数据 是 怎样 的 。 换 句 话说 ， 数 据 仓 库 中 的 数据 是 反映 了 有 示 一 
历史 时 间 点 的 数据 快照 ， 这 也 就 是 术语 “随时 间 变 化 ”的 含义 。 当 然 ， 
任何 一 个 存储 结构 都 不 可 能 无 限 扩展 ， 数 据 也 不 可 能 只 入 不 出 地 永久 
驻 留 在 数据 仓库 中 ， 它 在 数据 仓库 中 也 有 自己 的 生命 周期 。 到 了 一 定 
时 候 ， 数 据 会 从 数据 仓库 中 移 除 。 移 除 的 方式 可 能 是 将 细节 数据 汇总 
后 删除 、 将 老 的 数据 转 储 到 大 容量 介质 后 删除 和 直接 物理 删除 等 。 


。 非 易 失 


非 易 失 指 的 是 ， 一 旦 进入 到 数据 仓库 中 ， 数 据 就 不 应 该 再 有 改 
变 。 操 作 型 环境 中 的 数据 一 般 都 会 频繁 更 新 ， 而 在 数据 仓库 环境 中 一 
般 并 不 进行 数据 更 新 。 当 改变 的 操作 型 数据 进入 数据 仓库 时 会 产生 新 
的 记录 ， 这 样 就 保留 了 数据 变化 的 历史 轨迹 。 也 就 是 说 ， 数 据 仓库 中 
的 数据 基本 是 静态 的 。 这 是 一 个 不 难 理解 的 逻辑 概念 。 数 据 仓库 的 目 
的 就 是 要 根据 曾经 发 生 的 事件 进行 分 析 ， 如 果 数 据 是 可 修改 的 ， 将 使 
历史 分 析 变 得 没有 意义 。 


除了 以 上 四 个 特性 外 ， 数 据 仓库 还 有 一 个 非常 重要 的 概念 就 是 粒 
度 。 粒 度 问 题 遍布 于 数据 仓库 体系 结构 的 各 个 部 分 。 粒 度 是 指数 据 的 
细节 或 汇总 程度 ， 细 节 程 度 越 高 ， 粒 度 级 别 越 低 。 例 如 ， 单 个 事务 是 
低 粒度 级 别 ， 而 全 部 一 个 月 事务 的 汇总 就 是 高 粒度 级 别 。 


数据 粒度 一 直 是 数据 仓库 设计 需要 重点 思考 的 问题 。 在 早期 的 操 
作 型 系统 中 ， 当 细节 数据 被 更 新 时 ， 几 乎 总 是 将 其 存放 在 最 低 粒度 级 
别 上 ; 而 在 数据 仓库 环境 中 ， 通 常 都 不 这 样 做 。 例 如 ， 如 果 数 据 被 装 
载 进 数据 仓库 的 频率 是 每 天 一 次 ， 那 么 一 天 之 内 的 数据 更 新 将 被 忽 
略 。 


粒度 之 所 以 是 数据 仓库 环境 的 天 键 设计 问题 ， 是 因为 它 极 大 地 影 
响 数据 仓库 的 数据 量 和 可 以 进行 的 查询 类 型 。 粒 度 级 别 越 低 ， 数 气量 
越 大 ， 查 询 的 细节 程度 越 高 ， 查 询 范 围 越 广泛 ， 反 之 亦 然 。 

大 多 数 情况 下 ， 数 据 会 以 很 低 的 粒度 级 别 进 入 数据 仓库 ， 如 日 志 
类 型 的 数据 或 单 击 流 数 据 ， 此 时 应 该 对 数据 进行 编辑 、 过 滤 和 汇总 ， 
使 其 适应 数据 仓库 环境 的 粒度 级 别 。 如 果 得 到 的 数据 粒度 级 别 比 数据 
仓库 的 高 ， 那 将 意味 着 在 数据 存 入 数据 仓库 前 ， 开 发 人 员 必 须 人 花费 大 
量 设计 和 资源 来 对 数据 进行 拆 分 。 


11.2 ”建立 数据 仓库 的 原因 


现在 你 应 该 已 经 熟悉 了 数据 仓库 的 概念 ， 那 么 数据 仓库 里 的 数据 
从 哪里 来 呢 ? 通常 数据 仓库 的 数据 来 自 各 个 业务 应 用 系统 。 业 务 系统 
中 的 数据 形式 多 种 多 样 ， 可 能 是 Oracle、MySQL、 SQL Server 等 关系 
数据 库 里 的 结构 化 数据 ， 可 能 是 文本 、CSV 等 平面 文件 或 Word、Excel 
文档 中 的 非 结 构 化 数据 ， 还 可 能 是 HTML、XML 等 自 描述 的 半 结 构 化 
数据 。 这 些 业 务 数据 经 过 一 系列 的 数据 抽取 、 转 换 、 清 洗 ， 最 终 以 一 
种 统一 的 格式 装载 进 数 据 仓库 。 数 据 仓 库 里 的 数据 作为 分 析 用 的 数据 
源 ， 提 供给 后 面 的 即席 查询 、 分 析 系 统 、 数 据 集 市 、 报 表 系 统 、 数 据 
挖掘 系统 等 。 

从 以 上 描述 可 以 看 到 ， 从 存储 的 角度 看 ， 数 据 仓 库 里 的 数据 实际 
上 已 经 存在 于 业务 应 用 系统 中 ， 那 么 为 什么 不 能 直接 操作 业务 系统 中 
的 数据 用 于 分 析 ， 而 要 使 用 数据 仓库 呢 ? 实际 上 在 数据 仓库 技术 出 现 


前 ， 有 很 多 数据 分 析 的 先驱 者 已 经 发 现 ， 简 单 的 “直接 访问 ”方式 很 难 
良好 工作 ， 这 样 做 的 失败 案例 数不胜数 。 下 面 列举 一 些 直接 访问 业务 
系统 无 法 工作 的 原因 : 


尽 


某 些 业务 数据 由 于 安全 或 其 他 因素 不 能 直接 访问 。 

业务 系统 的 版 本 变更 很 频繁 ， 每 次 变更 都 需要 重 写 分 析 系 统 并 
重新 测试 。 

很 难 建立 和 维护 汇总 数据 来 产 于 多 个 业务 系统 版 本 的 报表 。 
业务 系统 的 列 名 通常 是 硬 编码 ， 有 时 仅仅 是 无 意义 的 字符 串 ， 
这 让 编写 分 析 系 统 更 加 困难 。 

业务 系统 的 数据 格式 ， 如 日 期 、 数 字 的 格式 不 统一 。 

业务 系统 的 表 结 构 为 事务 处 理性 能 而 优化 ， 有 了 时 并 不 适合 查询 
与 分 析 。 

没有 适当 的 方式 将 有 价值 的 数据 合并 进 特 定 应 用 的 数据 库 。 
没有 适当 的 位 置 存 储 元 数据 。 

用 户 需 要 看 到 的 显示 数据 字段 ， 有 时 在 数据 库 中 并 不 存在 。 
通常 事务 处 理 的 优先 级 比分 析 系 统 高 ， 所 以 如 果 分 析 系 统 和 事 
务 处 理 运 行 在 同一 硬件 之 上 ， 分 析 系 统 往往 性 能 很 差 。 

有 误 用 业务 数据 的 风险 。 

极 有 可 能 影响 业务 系统 的 性 能 。 


管 需 要 增加 软 硬 件 的 投入 ， 但 建立 独立 数据 仓库 与 直接 访问 业 


务 数据 相 比 ， 无 论 是 成 本 还 是 带 来 的 好 处 ， 这 样 做 都 是 值得 的 。 随 着 
处 理 器 和 存储 成 本 的 逐年 降低 ， 数 据 仓库 方案 的 优势 更 加 明显 ， 在 经 
济 上 也 更 具 可 行 性 。 


无 论 是 建立 效 据 仓库 还 要 实施 别 的 项 目 ， 都 要 从 时 间 、 成 本 、 功 
能 等 几 个 角度 权衡 比较 ， 认 真 研究 一 下 是 否 真正 需要 一 个 数据 仓库 ， 


这 是 一 


个 很 好 的 问题 。 当 你 的 组 织 很 小 ， 人 数 很 少 ， 业 务 单一 ， 数 据 


量 也 不 大 ， 可 能 你 真 的 不 需要 建立 数据 仓库 。 毕 竟 要 想 成 功 建立 一 个 


数据 仓库 并 使 其 发 挥 应 有 的 作用 还 是 很 有 难度 的 ， 需 要 大 量 的 人 、 
财 、 物 力 ， 并 且 即 便 花 费 很 大 的 代价 完成 了 数据 仓库 的 建设 ， 在 较 短 
一 段 时 间 内 也 不 易 显现 出 价值 。 在 没有 专家 介入 而 仅 赁 组织 自身 力量 
建立 数据 仓库 时 ， 还 要 冒 相当 大 的 失败 风险 。 但 是 ， 当 你 所 在 的 组 织 
有 超过 1000 名 雇员 ， 有 几 十 个 部 门 的 时 候 ， 它 所 面临 的 挑战 将 是 完 
不 同 的 。 在 这 个 充满 竞争 的 时 代 ， 做 出 正确 的 决策 对 一 个 组 织 至 关 重 
要 。 而 要 做 出 最 恰当 的 决策 ， 仅 依据 对 孤立 维度 的 分 析 是 不 可 能 实现 
的 。 这 时 必须 要 考虑 所 有 相关 数据 的 可 用 性 ， 而 这 个 数据 最 好 的 来 源 
就 是 一 个 设计 良好 的 数据 仓库 。 


假设 一 个 超市 连锁 企业 ， 在 没有 实现 数据 仓库 的 情况 下 ， 最 终 该 
企业 会 发 现 ， 要 分 析 商 品 销售 情况 是 非常 困难 的 ， 比 如 哪些 商品 被 售 
出 ， 哪 些 没 有 被 售 出 ， 什 么 时 间 销 量 上 升 ， 哪 个 年 龄 组 的 客户 倾向 于 
购买 哪些 特定 商品 等 这 些 问题 都 无 从 回答 。 而 给 出 这 些 问题 的 正确 答 
案 正 是 一 个 具有 吸引 力 的 挑战 。 这 只 是 第 一 步 ， 必 须要 搞 清楚 一 个 特 
定 商 品 到 底 适 不 适合 18~25 岁 的 人 群 ， 以 决定 该 商品 的 销售 策略 。 一 
旦 从 数据 分 析 得 出 的 结论 是 销售 该 商品 的 价值 在 降低 ， 那 么 必须 实施 
后 面 的 步骤 分 析 在 哪里 出 了 问题 ， 并 采取 相应 的 措施 加 以 改进 。 


在 辅助 战略 决策 层面 ， 数 据 仓库 的 重要 性 更 加 凸显 。 作 为 一 个 企 
业 的 经 营 者 或 管理 者 ， 他 必须 对 某 些 问题 给 出 答案 ， 以 获得 超越 竞争 
对 手 的 额外 优势 。 回 答 这 些 问题 对 于 基本 的 业务 运营 可 能 不 是 必需 
的 ， 但 对 于 企业 的 生存 发 展 却 必 不 可 少 。 下 面 是 一 些 常见 问题 的 例 
d 


。 如 何 把 公司 的 市 场 份额 提升 59%6? 

。 哪些 产品 的 市 场 表现 不 令 人 满意 ? 

。 哪些 代理 商 需 要 销售 政策 的 帮助 ? 

。 提供 给 客户 的 服务 质量 如 何 ? 哪些 需要 改进 ? 


回答 这 些 战略 性 问题 的 关键 一 环 就 是 数据 仓库 。 就 拿 “提供 给 客户 
的 服务 质量 如 何 ? ”这 一 问题 来 说 ， 这 是 管理 者 最 为 天 心 的 问题 之 一 。 
我 们 可 以 把 这 一 问题 分 解 成 许多 具体 的 小 问题 ， 比 如 第 一 个 问题 是 ， 
在 过 去 半年 中 ， 收 到 过 多 少 用 户 反 馈 ? 可 以 在 数据 仓库 上 发 出 对 应 的 
查询 ， 并 对 查询 结果 进行 分 析 。 之 所 以 能 够 这 样 做 ， 是 因为 数据 仓库 
中 含有 每 一 条 用 户 反 馈 信息 。 

你 可 能 已 经 想到 了 ， 第 二 个 问题 自然 就 是 ， 在 这 些 用 户 反 馈 当 
中 ， 给 出 “非常 满意 ”一 般 ”*“ 不 满意 ”的 人 数 分 别 有 多 少 ? 下面 的 问题 
就 是 客户 所 强调 的 需要 改进 的 地 方 和 广 受 批评 的 地 方 是 哪些 ? 这 在 数 
据 仓 库 的 用 户 反 馈 信息 中 也 有 一 列 来 表示 ， 它 也 能 从 一 个 侧面 反映 出 
客户 关心 的 问题 是 哪些 。 以 上 这 三 个 问题 的 答案 联合 在 一 起 ， 就 可 以 
得 出 客户 服务 满意 度 的 结论 ， 并 且 准 确定 位 哪些 地 方 急需 改进 。 


下 面 简单 总 结 一 下 使 用 数据 仓库 的 好 处 : 


将 多 个 数据 产 集 成 到 单一 数据 存储 ， 因 此 可 以 使 用 单一 数据 查 
询 引 筝 展示 数据 。 

缓解 在 事务 处 理 数 据 库 上 因 执 行 大 碍 询 而 产生 的 资产 竞争 问 
题 。 

维护 历史 数据 。 

通过 对 多 个 源 系统 的 数据 整合 ， 使 得 在 整个 企业 的 角度 存在 统 
一 的 中 心 视图 。 

通过 提供 一 致 的 编码 和 描述 ， 减 少 或 修正 坏 数 据 问题 ， 提 高 数 
据 质 量 。 

一 致 性 地 表示 组 织 信 息 。 

提供 所 有 数据 的 单一 通用 数据 模型 ， 而 不 用 关心 数据 关 。 

重 构 数据 ， 使 数据 对 业务 用 户 更 有 意义 。 

向 复杂 分 析 查 询 交 付 优秀 的 查询 性 能 ， 同 时 不 影响 操作 型 系 


统 。 


。 开 发 决策 型 查询 更 简单。 
1.2 ”操作 型 系统 与 分 析 型 系统 


上 一 小 节 已 经 多 次 提 及 操作 型 系统 和 分 析 型 系统 ， 本 小 节 将 详细 
前述 它们 的 概念 及 差异 。 


在 一 个 大 组 织 中 ， 往 往 都 有 两 种 类 型 的 系统 ， 操 作 型 和 分 析 型 ， 
而 这 两 种 系统 大 都 以 数据 库 作为 数据 管理 、 组 织 和 操作 的 工具 。 操 作 
型 系统 完成 组 织 的 核心 业务 ， 例 如 下 订单 、 更 新 库存 、 记 录 支 付 信息 
等 。 这 些 系统 是 事务 型 的 ， 核 心目 标 是 尽 可 能 快 地 处 理事 务 ， 同 时 维 
护 数 据 的 一 致 性 和 完整 性 。 而 分 析 型 系统 的 主要 作用 是 通过 数据 分 析 
评估 组 织 的 业务 经 营 状 况 ， 并 进一步 辅助 决策 。 


1.2.1 ”操作 型 系统 


相信 从 事 过 IT 或 相关 工作 的 读者 对 操作 型 系统 都 不 会 感到 阳 生 。 
几乎 所 有 的 互联 网 线 上 系统 、MIS、OA 等 都 属于 这 类 系统 的 应 用 。 操 
作 型 系统 是 一 类 专门 用 于 管理 面向 事务 的 应 用 的 信息 系统 。“ 事 务 "一 
词 在 这 里 存在 一 些 必 义 ， 有 些 人 理解 事务 是 一 个 计算 机 或 数据 库 的 术 
语 ， 另 一 些 人 所 理解 的 事务 是 指 业 务 或 商业 交易 ， 这 里 使 用 前 一 种 语 
义 。 那 么 什么 是 数据 库 技术 中 的 事务 呢 ? 这 是 首先 需要 明确 的 概念 。 


事务 是 工作 于 数据 库 管 理 系统 (或 类 似 系统 ) 中 的 一 个 逻辑 单 
元 ， 该 逻辑 单元 中 的 操作 被 以 一 种 独立 于 其 他 事务 的 可 靠 方式 所 处 
理 。 事 务 一 般 代 表 着 数据 改变 ， 它 提供 “all-or-nothing” 操 作 ， 就 是 说 事 
务 中 的 一 系列 操作 要 么 完全 执行 ， 要 么 完全 不 执行 。 在 数据 库 中 使 用 
事务 主要 出 于 两 个 目的 : 


(1) 保证 工作 单元 的 可 靠 性 。 当 数据 库 系统 异常 宕 机 时 ， 其 中 执 
行 的 操作 或 者 已 经 完成 或 者 只 有 部 分 完成 ， 很 多 没有 完成 的 操作 此 时 
处 于 一 种 模糊 状态 。 在 这 种 情况 下 ， 数 据 库 系统 必须 能 够 恢复 到 数据 
一 致 的 正常 状态 。 


(2) 提供 并 发 访问 数据 库 的 多 个 程序 间 的 隔离 。 如 果 没 有 这 种 隔 
离 ， 程 序 得 到 的 结果 很 可 能 是 错误 的 。 

根据 事务 的 定义 ， 引 申 出 事务 具有 原子 性 、 一 臻 性、 隔离 性 、 持 
入 性 的 特点 ， 也 就 是 数据 库 领 域 中 单 说 的 事务 的 ACID 特性 。 


。 原子 性 


指 的 是 事务 中 的 一 系列 操作 或 全 执行 或 不 执行 ， 这 些 操作 是 不 可 
再 分 的 。 原 子 性 可 以 防止 数据 被 部 分 修改 。 银 行 账号 间 转 账 是 一 个 事 
务 原 子 性 的 例子 。 简 单 地 说 ， 从 A 账 号 向 B 账 号 转账 有 两 步 操作 : AK 
号 提取 ，B 账 号 存 入 。 这 两 个 操作 以 原子 性 事务 执行 ， 使 数据 库 保持 
一 致 的 状态 ， 即 使 这 两 个 操作 的 任何 一 步 失 败 了 ， 总 的 金额 数 不 会 碱 
少 也 不 会 增加 。 


。 一 致 性 


数据 库 系 统 中 的 一 致 性 是 指 任何 数据 库 事 务 只 能 以 允许 的 方式 修 
改 数据 。 任 何 数据 库 写 操作 必须 遵循 既 有 的 规则 ， 包 括 约 束 、 级 联 、 
触发 器 以 及 它们 的 任意 组 合 。 一 致 性 并 不 保证 应 用 程序 逻辑 的 正确 
性 ， 但 它 能 够 保证 不 会 因为 程序 错误 而 使 数据 库 产生 违反 规则 的 结 
果 。 


一 一 一 


。 隔 离 性 


在 数据 库 系统 中 ， 隅 离 性 决定 了 其 他 用 户 所 能 看 到 的 事务 完整 性 
程度 。 例 如 ， 一 个 用 户 正 在 生成 一 个 采购 订单 ， 并 且 已 经 生成 了 订单 
主 记录 ， 但 还 没有 生成 订单 条 目 明 细 记 录 。 此 时 订单 主 记 录 能 否 被 其 
他 并 发 用 户 看 到 呢 ? 这 就 是 由 隔离 级 别 决定 的 。 数 据 库 系统 中 ， 按 照 
由 低 到 高 一 般 有 读 非 提交 、 读 提交 、 可 重复 读 、 串 行 化 等 几 种 隔离 
级 。 数 据 库 系统 并 不 一 定 实现 所 有 的 隅 离 级 别 ， 如 Oracle 数 据 库 只 实 
现 了 读 提交 和 串 行 化 ， 而 MySQL 数 据 库 则 提供 这 全 部 四 种 隔离 级 别 。 


隔离 级 越 低 ， 多 用 户 同 时 访问 数据 的 能 力 越 高 ， 但 同时 也 会 增加 
脏 读 、 丢 失 更 新 等 并 发 操作 的 负面 影响 。 相 反 ， 高 隔离 级 降低 了 并 发 
影响 ， 但 需要 使 用 更 多 的 系统 资源 ， 也 增加 了 事务 被 阻塞 的 可 能 性 。 


。 持久 性 


数据 库 系 统 的 持久 性 保证 已 经 提交 的 事务 是 永久 保存 的 。 例 如 ， 
如 果 一 个 机 票 预订 报告 显示 一 个 座位 已 经 订 出 ， 那 么 即使 系统 骨 溃 ， 
被 订 了 的 座位 也 会 一 直 保 持 被 订 出 的 状态 。 持 久 性 可 以 通过 在 事务 提 
交 时 将 事务 日 志 刷 新 至 永久 性 存储 介质 来 实现 。 


了 解 了 事务 的 基本 概念 后 ， 我 们 再 来 看 操作 型 系统 就 比较 容易 理 
解 了 。 操 作 型 系统 通常 是 高 并 发 、 高 吞吐 量 的 系统 ， 具 有 大 量 检索 、 
插入 、 更 新 操作 ， 事 务 数 量 大 ， 但 每 个 事务 影响 的 数据 量 相 对 较 小 。 
这 样 的 系统 很 适合 在 线 应 用 ， 这 些 应 用 有 成 千 上 万 用 户 在 同时 使 用 ， 
并 要 求 能 够 立即 响应 用 户 请 求 。 操 作 型 系统 常 被 整合 到 面向 服务 的 染 
构 (SOA) 和 Web 服 务 里 。 对 操作 型 系统 应 用 的 主要 要 求 是 高 可 用 、 
高 速度 、 高 并 发 、 可 恢复 和 保证 数据 一 致 性 ， 在 各 种 互联 网 应 用 层 出 
不 穷 的 今天 ， 这 些 系统 要 求 是 显而易见 的 。 


1. 操作 型 系统 的 数据 库 操 作 


在 数据 库 使 用 上 ， 操 作 型 系统 党 用 的 操作 是 增 、 改 、 查 ， 并 且 通 
常 是 插入 与 更 新 密集 型 的 ， 同 时 会 对 数据 库 进行 大 量 并 发 查询 ， 而 删 
除 操作 相对 较 少 。 操 作 型 系统 一 般 都 直接 在 数据 库 上 修改 数据 ， 没 有 
中 间 过 渡 区 。 


2. 操作 型 系统 的 数据 库 设计 


操作 型 系统 的 特征 是 大 量 短 的 事务 ， 并 强调 快速 处 理 查 询 。 每 秒 
事务 数 是 操作 型 系统 的 一 个 有 效 度量 指标 。 针 对 以 上 这 些 特点 ， 数 据 
库 设 计 一 定 要 满足 系统 的 要 求 。 

在 数据 库 逻 辑 设计 上 ， 操 作 型 系统 的 应 用 数据 库 大 都 使 用 规范 化 
设计 方法 ， 通常 要 满足 第 三 范式 。 这 是 因为 规范 化 设计 能 最 大 限度 地 
数据 见 余 ， 因 而 提供 更 快 更 高 效 的 方式 执行 数据 库 写 操 作 。 关 于 规范 
化 设计 概念 及 其 相关 内 容 ， 会 在 第 2 章 “ 数 据 仓 库 设 计 ” 中 做 详细 说 明 。 


在 数据 库 物 理 设计 上 ， 应 该 依据 系统 所 使 用 的 数据 库 管 理 系 统 的 
具体 特点 ， 做 出 相应 的 设计 ， 毕 竟 每 种 数据 库 管理 系统 在 实现 细节 上 
还 是 存在 很 大 差异 的 。 下 面 就 以 Oracle 数 据 库 为 例 ， 简 要 说 明 在 设计 
操作 型 系统 数据 库 时 应 该 考虑 的 问题 。 


。 调整 回 滚 段 。 回 滚 段 是 数据 库 的 一 部 分 ， 其 中 记录 着 最 终 被 回 
滚 的 事务 的 行为 。 这 些 回 滚 段 信息 可 以 提供 读 一 致 性 、 回 滚 事 
务 和 效 据 库 恢 复 。 

合理 使 用 聚 族 。 聚 族 是 一 种 数据 库 模 式 ， 其 中 包含 有 共用 一 列 
或 多 列 的 多 个 表 。 数 据 库 中 的 聚 簇 表 用 于 提高 连接 操作 的 性 
能 。 

适当 调整 数据 块 大 小 。 数 据 块 大 小 应 该 是 操作 系统 块 大 小 的 倍 
数 ， 并 且 设 置 上 限 以 避免 不 必要 的 IO。 


设置 缓冲 区 高 速 缓 存 大 小 。 合 理 的 缓存 大 小 能 够 有 效 避 免 不 必 
要 的 磁盘 IO。 

动态 分 配 表 空 间 。 

合理 划分 数据 库 分 区 。 分 区 最 大 的 作用 是 能 在 可 用 性 和 安全 性 
维护 期 间 保持 事务 处 理 的 性 能 。 

SQL 优化 。 有 效 利 用 数据 库 管 理 系统 的 优化 器 ， 使 用 最 佳 的 数 
据 访问 路 径 。 

避免 过 度 使 用 索引 。 大 量 的 数据 修改 会 给 索引 维护 带 来 讨 力 ， 
从 而 对 整个 系统 的 性 能 产生 负面 影响 。 


以 上 所 讲 的 操作 型 系统 都 是 以 数据 库 系 统 为 核心 ， 而 数据 库 系 统 
为 了 保持 ACID 特性 ， 本 质 上 是 单一 集中 式 系统 。 在 当今 这 个 信息 爆炸 
的 时 代 ， 集 中 式 数 据 库 往往 已 无 法 支撑 业务 的 需要 〈 从 某 订 票 网 站 和 
某 电 商 网 站 的 超大 瞬时 并 发 量 来 看 ， 这 已 是 一 个 不 争 的 事实 ) 。 这 就 
给 操作 型 系统 市 来 新 的 挑战 。 分 布 式 事务 、 去 中 心 化 、CAP 与 最 终 一 
致 性 等 一 系列 新 的 理论 和 技术 为 解决 系统 扩展 问题 应 运 而 生 。 这 是 一 
个 很 大 的 话题 ， 要 想 说 清楚 需要 很 多 的 扩展 知识 和 大 量 篇 幅 ， 故 这 里 
只 是 点 到 为 止 ， 不 做 展开 。 


1.2.2 分析 型 系统 


在 计算 机 领域 ， 分 析 型 系统 是 一 种 快速 回答 多 维 分 析 碍 询 的 实现 
方式 。 它 也 是 更 广泛 范畴 的 所 谓 商 业 智能 的 一 部 分 (商业 智能 还 包含 
数据 库 、 报 表 系 统 、 数 据 挖掘 、 数 据 可 视 化 等 研究 方向 ) 。 分 析 型 系 
统 的 典型 应 用 包括 销售 业务 分 析 报 告 、 市 场 管 理 报告 、 业 务 过 程 管理 
(BPM) 、 预 算 和 预测 、 金 融 分 析 报 告 及 其 类 似 的 应 用 。 


1. 分 析 型 系统 的 数据 库 操作 


在 数据 库 层 面 ， 分 析 型 系统 操作 被 定义 成 少量 的 事务 ， 复 杂 的 碍 
询 ， 处 理 归档 和 历史 数据 。 这 些 数据 很 少 被 修改 ， 从 数据 库 抽取 数据 
是 最 多 的 操作 ， 也 是 识别 这 种 系统 的 关键 特征 。 分 析 型 数据 库 基 本 上 
都 是 读 操作 。 


2. 分 析 型 系统 的 数据 库 设 计 


分 析 型 系统 的 特征 是 相对 少量 的 事务 ， 但 查询 通 党 非常 复 杂 并 且 
会 包含 聚合 计算 ， 例 如 今年 和 去 年 同时 期 的 数据 对 比 、 百 分 比 变 化 趋 
势 等 。 分 析 型 数据 库 中 的 数据 一 般 来 自 于 一 个 企业 级 数据 仓库 ， 是 整 
合 过 的 历史 数据 。 对 于 分 析 型 系统 ， 吞 吐 量 是 一 个 有 效 的 性 能 度量 指 
标 。 


在 数据 库 逻 辑 设计 上 ， 分 析 型 数据 库 使 用 多 维 数据 模型 ， 通 单 是 
设计 成 星 型 模式 或 雪花 模式 。 关 于 多 维 数据 模型 的 概念 及 其 相关 内 
容 ， 会 在 第 2 章 “ 数 据 仓库 设计 ”中 做 详细 说 明 。 


在 数据 库 物理 设计 上 ， 依 然 以 Oracle 数 据 库 为 例 ， 简 要 说 明 在 设 
计 分 析 型 系统 数据 库 时 应 该 考虑 的 一 些 问题 。 


。 表 分 区 。 可 以 独立 定义 表 分 区 的 物理 存储 属性 ， 将 不 同 分 区 的 
数据 存放 到 多 个 物理 文件 上 ， 这 样 做 一 方面 可 以 分 散 1/O; 另 一 
方面 ， 当 数据 量 非常 大 时 ， 方 便 数据 维护 ; 再 有 就 是 利用 分 区 
消除 查询 数据 时 ， 不 用 扫描 整 张 表 ， 从 而 提高 查询 性 能 。 
位 图 索引 。 当 查询 条 件 中 包含 低 基数 (不 同 值 很 少 ， 例 如 性 
别 ) 的 列 ， 尤 其 是 包含 有 这 些 列 上 的 or、and 或 not 这 样 的 逻辑 
运算 时 ,或 者 从 有 大 量 行 的 表 中 返回 大 量 的 行 时 ， 应 考虑 位 图 
索引 。 

物化 视图 。 物 化 视图 物理 存储 查询 所 定义 的 数据 ， 能 够 自动 增 
量 刷 新 数据 ， 并 且 可 以 利用 查询 重 写 特性 极 大 地 提高 查询 速 


度 ， 是 分 析 型 系统 常用 的 技术 。 

。 并 行 化 操作 。 可 以 在 查询 大 量 数据 时 执行 并 行 化 操作 ， 这 样 会 
导致 多 个 服务 器 进程 为 同一 个 碍 询 语句 工作 ， 使 用 该 查询 可 以 
快速 完成 ， 但 是 会 耗费 更 多 的 资源 。 

随 着 数据 的 大 量 积 办 和 大 数据 时 代 的 到 来 ， 人 们 对 于 数据 分 析 的 
依赖 性 越 来 越 强 ， 而 分 析 型 系统 也 随 之 越 来 越 显示 出 重要 性 。 举 一 个 
简单 的 例子 ， 在 一 家 医院 中 ， 保 存 有 20 年 的 非常 完整 的 病人 信息 。 医 
院 领导 想 看 到 关于 最 常见 的 疾病 、 成 功 冶 急 率 、 实 习 医 生 的 实习 天 数 
等 很 多 相关 数据 的 详细 报告 。 为 了 满足 这 个 需求 ， 应 用 分 析 型 系统 查 
询 医 院 信 息 数据 仓库 ， 并 通过 复杂 查询 得 到 结果 ， 然 后 将 报告 提交 给 
领导 做 进一步 分 析 。 


1.2.3 ”操作 型 系统 和 分 析 型 系统 对 比 


操作 型 系统 和 分 析 型 系统 是 两 种 不 同 种 类 的 信息 系统 。 它 们 都 与 
数据 库 技术 相关 ， 数 据 库 提供 方法 支持 这 两 种 系统 的 功能 。 操 作 型 系 
统 和 分 析 型 系统 以 完全 不 同 的 方式 使 用 数据 库 ， 不 仅 如 此 ， 分 析 型 系 
统 更 加 注重 数据 分 析 和 报表 ， 而 操作 型 系统 的 目标 是 一 个 伴 有 大 量 数 
据 改变 的 事务 优化 系统 。 

对 于 学 习 数 据 科 学 及 其 相关 技术 的 读者 ， 了 解 这 两 种 信息 处 理 方 
式 的 区 别 至 关 重 要 。 这 也 是 理解 商业 智能 、 数 据 挖 气 、 数 据 仓 库 、 数 
据 模 型 、ETL 处 理 和 大 数据 等 系统 的 基础 。 

通过 前 面 对 两 种 系统 的 描述 ， 我 们 可 以 对 比 它们 的 很 多 方面 。 表 
1-1 总 结 了 两 种 系统 的 主要 区 别 。 后 面 我 们 进一步 讨论 每 一 个 容易 产生 
疑惑 的 对 比 项 ， 以 帮助 你 理解 。 


表 1-1 操作 型 系统 和 分 析 型 系统 对 比 


对 比 项 操作 型 系统 分 析 型 系统 


数据 源 应 用 的 操作 信息 ， 一 般 是 最 原始 的 数 | 历史 的 、 归 档 的 数据 ， 一 般 来 源 于 数据 仓 
据 库 

侧重 点 | Ss 信息 的 检索 或 报表 

应 用 管理 系统 、 交 易 系 统 、 在 线 应 用 等 报表 系统 、 多 维 分 析 、 决 策 支 持 系统 等 

用 户 终端 用 户 、 普 通 雇员 管理 人 员 、 市 场 人 员 、 数 据 分 析 师 

任务 业务 操作 数据 分 析 

数据 更 新 插入 、 更 新 、 删 除数 据 ， 要 求 快速 执 | 大 量 数据 装载 ， 花 费时 间 很 长 
行 ， 立 即 返 回 结果 


数据 模型 实体 关系 模型 多 维 数据 模型 


设计 方法 规范 化 设计 ， 大 量 的 表 和 表 之 间 的 关系 | 星 型 模式 或 雪花 横 式 ， 少 量 的 表 
备份 定期 执行 全 量 或 增 量 备份 ， 不 允许 数 | 简单 备份 ， 数 据 可 以 重新 装载 


HER 
从 天 到 年 儿 年 或 儿 十 年 

简单 查询 ， 快 速 返回 查询 结果 复杂 查询 ， 执 行 聚合 或 汇总 操作 
快 ， 大 表 上 需要 建 索 引 相对 较 慢 ， 需 要 更 多 的 索引 
小 ， 只 存储 操作 数据 大 ， 需 要 存储 大 量 历史 数据 


数据 的 时 间 范围 
查询 


所 需 空 间 


首先 两 种 系统 的 侧重 点 不 同 。 操 作 型 系统 更 适合 对 已 有 数据 的 更 
新 ， 所 以 是 日 单 处 理工 作 或 在 线 系统 的 选择 。 相 反 ， 分 析 型 系统 提供 
在 大 量 存 储 数据 上 的 分 析 能 力 ， 所 以 这 类 系统 更 适合 报表 类 应 用 。 分 
析 型 系统 通常 是 查询 历史 数据 ， 这 有 助 于 得 到 更 准确 的 分 析 报 告 。 


其 次 因为 这 两 种 系统 的 目标 完全 不 同 ， 所 以 为 了 得 到 更 好 的 性 
能 ， 使 用 的 数据 模型 和 设计 方法 也 不 同 。 操 作 型 系统 数据 库 通 常 使 用 
规范 化 设计 ， 为 普通 查询 和 数据 修改 提供 更 好 的 性 能 。 另 一 方面 ， 分 
析 型 数据 库 具有 上 典型 的 数据 仓库 组 织 形式 。 

基于 这 两 个 主要 的 不 同 点 ， 我 们 可 以 推导 出 两 种 系统 其 他 方面 的 
区 别 。 操 作 型 系统 上 的 查询 更 小 ， 而 分 析 型 系统 上 执行 的 查询 要 复杂 
得 多 。 所 以 操作 型 系统 会 比分 析 型 系统 快 很 多 。 

操作 型 系统 的 数据 会 持续 更 新 ， 并 且 更 新 会 立即 生效 。 而 分 析 型 
系统 的 数据 更 新 ， 是 由 预定 义 的 处 理 作业 同时 装载 大 量 的 数据 集合 ， 


并 且 在 装载 前 需要 做 数据 转换 ， 因 此 整个 数据 更 新 过 程 需要 很 长 的 执 
行 时 间 。 

由 于 操作 型 系统 要 做 到 绝对 的 数据 安全 和 可 用 性 ， 所 以 需要 实施 
复杂 的 备份 系统 。 基 本 的 全 量 备份 和 增 量 备份 都 是 必须 要 做 的 。 而 分 
析 型 系统 只 需要 偶尔 执行 数据 备份 即 可 ， 这 一 方面 是 因为 这 类 系统 一 
般 不 需要 保持 持续 运行 ， 另 一 方面 数据 还 可 以 从 操作 型 系统 重复 装 
载 。 

两 种 系统 的 空间 需求 显然 都 依赖 于 它们 所 存储 的 数据 量 。 分 析 型 
系统 要 存储 大 量 的 历史 数据 ， 因 此 需要 更 多 的 存储 空间 。 


1.3 ”数据 仓库 染 构 


前 面 两 个 小 节 介 绍 了 数据 仓库 、 操 作 型 系统 、 分 析 型 系统 等 概 
念 ， 也 指出 了 分 析 型 系统 的 数据 源 一 般 来 自 数据 仓库 ， 而 数据 仓库 的 
数据 来 自 于 操作 型 系统 。 本 小 节 从 技术 角度 讨论 数据 仓库 的 组 成 和 架 
构 。 


1.3.1 基本 架构 


“架构 ”是 什么 ? 这 个 问题 从 来 束 没 有 一 个 准确 的 答案 。 在 软件 行 
业 ， 一 种 被 普遍 接受 的 架构 定义 是 指 系统 的 一 个 或 多 个 结构 。 结 构 中 
包括 软件 的 构建 (构建 是 措 软 件 的 设计 与 实现 ) ， 构 建 的 外 部 可 以 看 
到 属性 以 及 它们 之 间 的 相互 关系 。 这 里 参考 此 定义 ， 把 数据 仓库 架构 
理解 成 构成 数据 仓库 的 组 件 及 其 之 间 的 关系， 那么 就 有 了 如 图 1-1 所 示 
的 数据 仓库 染 构 图 。 


下 面 详细 说 明 图 1-1 中 的 各 个 组 件 及 其 所 起 的 作用 。 
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图 1-1 数据 仓库 架构 


图 中 显示 的 整个 数据 仓库 环境 包括 操作 型 系统 和 数据 仓库 系统 两 
大 部 分 。 操 作 型 系统 的 数据 由 各 种 形式 的 业务 数据 组 成 ， 这 其 中 可 能 
有 关系 数据 库 、TXT 或 CSV 文 件 、HTML 或 XML 文 档 ， 还 可 能 存在 外 
部 系统 的 数据 ， 比 如 网 络 怜 虫 抓 取 来 的 互联 网 数据 等 ， 数 据 可 能 是 结 
构 化 、 半 结构 化 、 非 结构 化 的 。 这 些 数据 经 过 抽取 、 转 换 和 装载 
(ETL) 过 程 进 入 数据 仓库 系统 。 


这 里 把 ETL 过 程 分 成 了 抽取 和 转换 装载 两 个 部 分 。 抽 取 过 程 负责 
从 操作 型 系统 获取 数据 ， 该 过 程 一 般 不 做 数据 聚合 和 汇总 ， 但 是 会 按 
照 主题 进行 集成 ， 物 理 上 是 将 操作 型 系统 的 数据 全 量 或 增 量 复制 到 数 
据 仓 库 系统 的 RDS 中 。 转 换 装 载 过 程 并 将 数据 进行 清洗 、 过 滤 、 汇 
总 、 统 一 格式 化 等 一 系列 转换 操作 ， 使 数据 转 为 适合 查询 的 格式 ， 然 
后 装载 进 数据 仓库 系统 的 TDS 中 。 传 统 数 据 仓库 的 基本 模式 是 用 一 些 
过 程 将 操作 型 系统 的 数据 抽取 到 文件 ， 然 后 另 一 些 过 程 将 这 些 文件 转 
化 成 MySQL 或 Oracle 这 样 的 关系 数据 库 的 记录 。 最 后 ， 第 三 部 分 过 程 
负责 把 数据 导入 进 数 据 仓库 。 


RDS (RAW DATA STORES) 是 原始 数据 存储 的 意思 。 将 原始 数 
据 保 存 到 数据 仓库 里 是 个 不 错 的 想法 。ETL 过 程 的 bug 或 系统 中 的 其 他 


错误 是 不 可 避免 的 ， 保 留 原 始 数据 使 得 追踪 并 修改 这 些 错误 成 为 可 
能 。 有 时 数据 仓库 的 用 户 会 有 查询 细节 数据 的 需求 ， 这 些 细节 数据 的 
粒度 与 操作 型 系统 的 相同 。 有 了 RDS， 这 种 需求 就 很 容易 实现 ， 用 户 
可 以 查询 RDS 里 的 数据 而 不 必 影 响 业 务 系统 的 正常 运行 。 这 里 的 RDS 
实际 上 是 起 到 了 操作 型 数据 存储 (ODS) 的 作用 ， 关 于 ODS 相关 内 容 
本 小 节 后 面 会 有 详细 论述 。 

TDS (TRANSFORMED DATA STORES) 意 为 转换 后 的 数据 存 
储 。 这 是 真正 的 数据 仓库 中 的 数据 。 大 量 的 用 户 会 在 经 过 转换 的 数据 
集 上 处 理 他 们 的 日 常 查询 。 如 果 前 面 的 工作 做 得 好 ， 这 些 数据 将 被 以 
保证 最 重要 的 和 最 频繁 的 查询 能 够 快速 执行 的 方式 构建 。 


这 里 的 原始 数据 存储 和 转换 后 的 数据 存储 是 逻辑 概念 ， 它 们 可 能 
物理 存储 在 一 起 ， 也 可 能 分 开 。 当 原始 数据 存储 和 转换 后 的 数据 存储 
物理 上 分 开 时 ， 它 们 不 必 使 用 同样 的 软 硬 件 。 传 统 数 据 仓库 中 ， 原 始 
数据 存储 通常 是 本 地 文件 系统 ， 原 始 数 据 被 组 织 进 相应 的 目录 中 ， 这 
些 目录 是 基于 数据 从 哪里 抽取 或 何 时 抽取 建立 (例如 以 日 期 作为 文件 
或 目录 名 称 的 一 部 分 ) ; 转换 后 的 数据 存储 一 般 是 某 种 关系 数据 库 。 


自动 化 调度 组 件 的 作用 是 自动 定期 重复 执行 ETL 过 程 。 不 同 角色 
的 数据 仓库 用 户 对 数据 的 更 新 频率 要 求 也 会 有 所 不 同 ， 财 务 主管 需 
每 月 的 营 收 汇总 报告 ， 而 销售 人 员 想 看 到 每 天 的 产品 销售 数据 。 作 为 
通用 的 需求 ， 所 有 数据 仓库 系统 都 应 该 能 够 建立 周期 性 自动 执行 的 工 
作 流 作业 。 传 统 数据 仓库 一 般 利 用 操作 系统 自 带 的 调度 功能 (如 Linux 
的 cron 或 Windows 的 计划 任务 ) 实现 作业 自动 执行 。 


数据 目录 有 时 也 被 称 为 元 数据 存储 ， 它 可 以 提供 一 份 数 据 仓库 中 
数据 的 清单 。 用 户 通过 它 应 该 可 以 快速 解决 这 些 问 题 ; 什么 类 型 的 数 
据 被 存储 在 哪里 ， 数 据 集 的 构建 有 何 区 别 ， 数 据 最 后 的 访问 或 更 新 时 
间 等 。 此 外 还 可 以 通过 数据 目录 感知 数据 是 如 何 被 操作 和 转换 的 。 一 
个 好 的 数据 目录 是 让 用 户 体验 到 系统 易 用 性 的 关键 。 


查询 引擎 组 件 负 责 实际 执行 用 户 查询 。 传 统 数 据 仓库 中 ， 它 可 能 
是 存储 转换 后 数据 的 (Oracle、MySQL 等 关系 数据 库 系统 内 置 的 ) 查 
询 引 擎 ， 还 可 能 是 以 固定 时 间 间 隔 向 其 导入 数据 的 OLAP 立 方 体 ， 如 


Essbase cubeo 


用 户 界面 指 的 是 最 终 用 户 所 使 用 的 接口 程序 。 可 能 是 一 个 GUI 软 
件 ， 如 BI 套 件 的 中 的 客户 端 软件 ， 也 可 能 就 是 一 个 浏览 


1.3.2 ”主要 数据 仓库 架构 


在 数据 仓库 技术 演化 过 程 中 ， 产 生 了 几 种 主要 的 架构 方法 ， 包 括 
数据 集 市 架构 、Inmon 企 业 信息 工厂 架构 、Kimball 数 据 仓 库 架 构 和 混 
合 型 数据 仓库 架构 。 


1。 数 据 集 市 架构 


数据 集 市 是 按 主 题 域 组 织 的 数据 集合 ， 用 于 支持 部 门 级 的 决策 。 
有 两 种 类 型 的 数据 集 市 : 独立 数据 集 市 和 从 属 数据 集 市 。 


独立 数据 集 市 集中 于 部 门 所 关心 的 单一 主题 域 ， 数 据 以 部 门 为 基 
础 部 署 ， 无 须 考 虑 企业 级 别 的 信息 共享 与 集成 。 例 如 ， 制 造 部 门 、 人 
力 资源 部 门 和 其 他 部 门 都 各 自 有 他 们 自己 的 数据 集 市 。 独 立 数据 集 市 
从 一 个 主题 域 或 一 个 部 门 的 多 个 事务 系统 获取 数据 ， 用 以 支持 特定 
门 的 业务 分 析 需 要 。 一 个 独立 数据 集 市 的 设计 既 可 以 使 用 实体 关系 模 
型 ， 也 可 以 使 用 多 维 模型 。 数 据 分 析 或 商业 智能 工具 直接 从 数据 集 市 
查询 数据 ， 并 将 查询 结果 显示 给 用 户 。 一 个 典型 的 独立 数据 集 市 架构 
如 图 1-2 所 示 。 

因为 一 个 部 门 的 业务 相对 于 整个 企业 要 简单 ， 数 据 量 也 小 得 多 ， 
所 以 部 门 的 独立 数据 集 市 具有 周期 短 、 见 效 快 的 特点 。 如 果 从 企业 整 
体 的 视角 来 观察 这 些 数 据 集 市 ， 你 会 看 到 每 个 部 门 使 用 不 同 的 技术 ， 


建立 不 同 的 ETL 的 过 程 ， 处 理 不 同 的 事务 系统 ， 而 在 多 个 独立 的 数据 
集 市 之 间 还 会 存在 数据 的 交叉 与 重 玛 ， 甚 至 会 有 数据 不 一 致 的 情况 。 
从 业务 角度 看 ， 当 部 门 的 分 析 需 求 扩 展 ， 或 者 需要 分 析 跨 部 门 或 跨 主 
题 域 的 数据 时 ， 独 立 数据 市 场 会 显得 力不从心 。 而 当 数 据 存在 歧义 ， 
比如 同一 个 产品 ， 在 A 部 门 和 B 部 门 的 定义 不 同时 ， 将 无 法 在 部 门 间 进 
行 信 息 比 较 。 
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图 1-2 ”独立 数据 集 市 架构 


另外 一 种 数据 集 市 是 从 属 数 据 集 市 。 如 Bill Inmon 所 说 ， 从 属 数据 
集 市 的 数据 来 源 于 数据 仓库 。 数 据 仓库 里 的 数据 经 过 整合 、 重 构 、 汇 
总 后 传递 给 从 属 数据 集 市 。 从 属 数据 集 市 的 架构 如 图 1-3 所 示 。 
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图 1-3 ”从 属 数据 集 市 架构 


建立 从 属 数据 集 市 的 好 处 主要 有 : 


。 性 能 : 当 数 据 仓库 的 查询 性 能 出 现 问题 ， 可 以 考虑 建立 几 个 从 
属 数据 集 市 ， 将 查询 从 数据 仓库 移出 到 数据 集 市 。 

安全 : 每 个 部 门 可 以 完全 控制 他 们 自己 的 数据 。 

数据 一 致 : 因为 每 个 数据 集 市 的 数据 来 源 都 是 同一 个 数据 仓 
库 ， 有 效 消除 了 数据 不 一 致 的 情况 。 

Inmon 企 业 信 息 工厂 架构 


Inmon 企 业 信 息 工厂 架构 如 图 1-4 所 示 ， 我 们 来 看 图 中 的 组 件 是 如 
何 协同 工作 的 。 


操作 型 系统 数据 过 渡 区 数据 仓库 数据 集 市 最 终 用 户 接口 


外 部 数据 
— 数据 存储 
= 关系 数据 库 即席 查询 
|| “数据 处 理 Y 
Vy Ag rH e \ 清洗 \ BIET 
此 I 数据 | t \ 标准 化 \ 
E |) oe — AERALA 
= » 抽取 SH A 提供 ) 
d Wr E o BURTA 
iro || aT 
Ər aL , 
ER HR 
i. 


1-4 Inmon 企 业 信 息 工 厂 架构 


应 用 系统 : 这 些 应 用 是 组 织 中 的 操作 型 系统 ， 用 来 支撑 业务 。 
它们 收集 业务 处 理 过 程 中 产生 的 销售 、 市 场 、 材 料 、 物 流 等 数 
据 ， 并 将 效 据 以 多 种 形式 进行 存储 。 操 作 型 系统 也 叫 产 系统 ， 
为 数据 仓库 提供 数据 。 

ETL 过 程 : ETL 过 程 从 操作 型 系统 抽取 数据 ， 然 后 将 数据 转换 
成 一 种 标准 形式 ， 最 终 将 转换 后 的 数据 装载 到 企业 级 数据 仓库 
中 。ETL 是 周期 性 运行 的 批 处 理 过 程 。 

企业 级 数据 仓库 : 是 该 架构 中 的 核心 组 件 。 正 如 Inmon 数 据 仓 
库 所 定义 的 ， 企 业 级 数据 仓库 是 一 个 细节 数据 的 集成 资源 库 。 
其 中 的 数据 以 最 低 粒 度 级 别 被 捕获 ， 存 储 在 满足 三 范式 设计 的 
天 系数 据 库 中 。 

部 门 级 数据 集 市 : 是 面向 主题 数据 的 部 门 级 视图 ， 数 据 从 企业 
级 数据 仓库 获取 。 数 据 在 进入 部 门 数 据 集 市 时 可 能 进行 聚合 。 
数据 集 市 使 用 多 维 模型 设计 ， 用 于 数据 分 析 。 重 要 的 一 点 是 ， 
所 有 的 报表 工具 、BI 工 具 或 其 他 数据 分 析 应 用 都 从 数据 集 市 查 
询 数 据 ， 而 不 是 直接 查询 企业 级 数据 仓库 。 


2. Kimball 数 据 仓库 架构 


Kimball 效 据 仓库 架构 如 图 1-5 所 示 。 
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图 1-5 “Kimball 数 据 仓库 架构 


对 比 上 一 张 图 可 以 看 到 ，Kimball 与 Inmon 两 种 架构 的 主要 区 别 在 
于 核心 数据 仓库 的 设计 和 建立 。Kimball 的 数据 仓库 包含 高 粒度 的 企业 
数据 ， 使 用 多 维 模型 设计 ， 这 也 意味 着 数据 仓库 由 星 型 模式 的 维度 表 
和 事实 表 构 成 。 分 析 系 统 或 报表 工具 可 以 直接 访问 多 维 数据 仓库 里 的 
数据 。 在 此 架构 中 的 数据 集 市 也 与 Inmon 中 的 不 同 。 这 里 的 数据 集 市 
是 一 个 逻辑 概念 ， 只 是 多 维 数据 仓库 中 的 主题 域 划 分 ， 并 没有 自己 的 
物理 存储 ， 也 可 以 说 是 虚拟 的 数据 集 市 。 


3. 混合 型 数据 仓库 架构 
混合 型 数据 仓库 架构 如 图 1-6 所 示 。 
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图 1-6 ”混合 型 数据 仓库 架构 


所 谓 的 混合 型 结构 ， 指 的 是 在 一 个 数据 仓库 环境 中 ， 联 合 使 用 
Inmon 和 Kimball 两 种 架构 。 从 架构 图 可 以 看 到 ， 这 种 架构 将 Inmon 方 法 
中 的 数据 集 市 部 分 替换 成 了 一 个 多 维 数据 仓库 ， 而 数据 集 市 则 是 多 维 
数据 仓库 上 的 逻辑 视图 。 使 用 这 种 架构 的 好 处 是 ， 既 可 以 利用 规 沁 化 
设计 消除 数据 元 余 ， 保 证 数据 的 粒度 足够 细 ; 又 可 以 利用 多 维 结构 更 
灵活 地 在 企业 级 实现 报表 和 分 析 。 


1.3.3 ”操作 数据 存储 


操作 数据 存储 又 称 为 ODS， 是 Operational Data Store 的 简写 ， 其 定 
义 是 这 样 的 : 一 个 面向 主题 的 、 集 成 的 、 可 变 的 、 当 前 的 细节 数据 集 
合 ， 用 于 支持 企业 对 于 即时 性 的 、 操 作 性 的 、 集 成 的 全 体 信息 的 需 
求 。 对 比 1.1 节 中 数据 仓库 的 定义 不 难看 出 ， 操 作 型 数据 存储 在 某 些 方 
面具 有 类 似 于 数据 仓库 的 特点 ， 但 在 另 一 些 方面 又 显著 不 同 于 数据 仓 
库 。 


。 像 效 据 仓 库 一 样 ， 是 面向 主题 的 。 
。 像 效 据 仓 库 一 样 ， 其 数据 是 完全 集成 的 。 


。 数据 是 当前 的 ， 这 与 数据 仓库 存储 历史 数据 的 性 质 明 显 不 同 。 
ODS 具有 最 少 的 历史 数据 (一 般 是 30 天 到 60 天 ) ， 而 尽 可 能 接 
近 实 时 地 展示 数据 的 状态 。 

数据 是 可 更 新 的 ， 这 是 与 静态 数据 仓库 又 一 个 很 大 的 区 别 。 
ODS 融 如 同一 个 事务 处 理 系统 ， 当 新 的 效 据 流 进 ODS 时 ， 受 其 
影响 的 字段 被 新 信息 覆盖 。 

数据 几乎 完全 是 细节 数据 ， 仪 具有 少量 的 动态 聚集 或 汇总 数 
据 。 通 常 将 ODS 设 计 成 包含 事务 级 的 数据 ， 即 包含 该 主题 域 中 
最 低 粒 度 级 别 的 数据 。 

在 数据 仓库 中 ， 几 乎 没有 针对 其 本 身 的 报表 ， 报 表 均 放 到 数据 
集 市 中 完成 ; 与 此 不 同 ， 在 ODS 中 ， 业 务 用 户 频 繁 地 直接 访问 
ODSo 


在 一 个 数据 仓库 环境 中 ，ODS 具 有 如 下 几 个 作用 : 


。 充当 业务 系统 与 数据 仓库 之 间 的 过 渡 区 。 数 据 仓 库 的 数据 来 源 
复杂 ， 可 能 分 布 在 不 同 的 数据 库 ， 不 同 的 地 理 位 置 ， 不 同 的 应 
用 系统 之 中 ， 而 且 由 于 数据 形式 的 多 样 性 ， 数 据 转换 的 规则 往 
往 极为 复杂 。 如 果 直 接 从 业务 系统 抽取 数据 并 做 转换 ， 不 可 避 
免 地 会 对 业务 系统 造成 影响 。 而 ODS 中 存放 的 数据 从 数据 结 
构 、 数 据 粒度 、 数 据 之 间 的 逻辑 关系 上 都 与 业务 系统 基本 保持 
一 致 ， 因 此 抽取 过 程 只 需 简单 的 效 据 复制 而 基本 不 再 需要 做 数 
据 转 换 ， 大 大 降低 了 复杂 性 ， 同 时 最 小 化 对 业务 系统 的 侵入 。 
转移 部 分 业务 系统 细节 查询 的 功能 。 某 些 原来 由 业务 系统 产生 
的 报表 、 细 节 数 据 的 查询 能 够 在 ODS 中 进行 ， 从 而 降低 业务 系 
统 的 查询 压力 。 
。 完成 数据 仓库 中 不 能 完成 的 一 些 功能 。 用 户 有 时 会 要 求 数 据 仓 
库 查 询 最 低 粒 度 级 别 的 细节 数据 ， 而 数据 仓库 中 存储 的 数据 一 
般 都 是 聚合 或 汇总 过 的 数据 ， 并 不 存储 每 笔 交 易 产生 的 细节 数 


据 。 这 时 就 需要 把 细节 数据 查询 的 功能 转移 到 ODS 来 完成 ， 而 
且 ODS 的 数据 模型 是 按照 面向 主题 的 方式 组 织 的 ， 可 以 方便 地 
支持 多 维 分 析 。 即 数据 仓库 从 宏观 角度 满足 企业 的 决策 支持 要 
求 ， 而 ODS 层 则 从 微观 角度 反映 细节 交易 数据 或 者 低 粒 度 的 数 
据 查 询 要 求 。 


1.4 抽取 -转换 -装载 


前 面 已 经 多 次 提 到 了 ETL 一 词 ， 它 是 Extract、Transform、Load 三 
个 英文 单词 首 字母 的 简写 ， 中 文章 为 抽取 、 转 换 、 装 载 。ETL 是 建立 
数据 仓库 最 重要 的 处 理 过 程 ， 也 是 最 体现 工作 量 的 环节 ， 一 般 会 占 到 
整个 数据 仓库 项 目 工作 量 的 一 半 以 上 。 


。 抽取 : 从 操作 型 效 据 产 获 取 数 据 。 

。 转换 : 转换 数据 ， 使 之 转变 为 适用 于 查询 和 分 析 的 形式 和 结 
构 。 

。 装载 : 将 转换 后 的 效 据 导入 到 最 终 的 目标 效 据 仓库 。 


建立 一 个 数据 仓库 ， 束 是 要 把 来 自 于 多 个 异 构 的 源 系统 的 数据 集 
成 在 一 起 ， 放 置 于 一 个 集中 的 位 置 用 于 数据 分 析 。 如 果 一 开始 这 些 源 
系统 数据 就 是 兼容 的 当然 最 好 ， 但 情况 往往 不 是 这 样 。ETL 系 统 的 工 
作 就 是 要 把 异 构 的 数据 转换 成 同 构 的 。 如 果 疫 有 ETL， 不 可 能 对 异 构 
的 数据 进行 程序 化 的 分 析 。 


1.4.1 ”数据 抽取 


ETL 处 理 的 第 一 步 ， 也 是 最 重要 的 一 步 。 数 据 被 成 功 抽取 后 ， 才 可 以 
进行 转换 并 沪 载 到 数据 仓库 中 。 能 否 正确 地 获取 数据 直接 关系 到 后 面 


步骤 的 成 败 。 数 据 仓 库 典 型 的 源 系统 是 事务 处 理应 用 ， 例 如 ， 一 个 销 
售 分 析 数 据 仓 库 的 源 系 统 之 一 ， 可 能 是 一 个 订单 录入 系统 ， 其 中 包含 
当前 销售 订单 相关 操作 的 全 部 记录 。 


设计 和 建立 数据 抽取 过 程 ， 在 ETL 处 理 乃至 整个 数据 仓库 处 理 过 
程 中 ， 一 般 是 较为 耗 时 的 任务 。 源 系统 很 可 能 非常 复杂 并 且 缺 少 相应 
的 文档 ， 因 此 只 是 决定 需要 抽取 哪些 数据 可 能 就 已 经 非常 困难 了 。 通 
常数 据 都 不 是 只 抽取 一 次 ， 而 是 需要 以 一 定 的 时 间 间隔 反复 抽取 ， 通 
过 这 样 的 方式 把 数据 的 所 有 变化 提供 给 数据 仓库 ， 并 保持 数据 的 及 时 
性 。 除 此 之 外 ， 源 系统 一 般 不 允许 外 部 系统 对 它 进行 修改 ， 也 不 允许 
外 部 系统 对 它 的 性 能 和 可 用 性 产生 影响 ， 数 据 仓库 的 抽取 过 程 要 能 适 
应 这 样 的 需求 。 如 果 已 经 明确 了 需要 抽取 的 数据 ， 下 一 步 就 该 考虑 从 
源 系 统 抽 取 数据 的 方法 了 。 

对 抽取 方法 的 选择 高 度 依赖 于 源 系统 和 目标 数据 仓库 环境 的 业务 
需要 。 一 般 情况 下 ， 不 可 能 因为 需要 提升 数据 抽取 的 性 能 ， 而 在 源 系 
统 中 添加 额外 的 逻辑 ， 也 不 能 增加 这 些 源 系统 的 工作 负载 。 有 了 时， 用 
户 甚至 都 不 允许 增加 任何 “ 开 箱 即 用 ”的 外 部 应 用 系统 ， 这 叫做 对 源 系 
统 具 有 侵入 性 。 下 面 分 别 从 逻辑 和 物理 两 方面 介绍 数据 抽取 方法 。 


1. 逻辑 抽取 

有 两 种 逻辑 抽取 类 型 : 全 量 抽 取 和 增 量 抽取 。 

(1) 全 量 抽 取 

源 系统 的 数据 全 部 被 抽取 。 因 为 这 种 抽取 类 型 影响 源 系统 上 当前 


所 有 有 效 的 数据 ， 所 以 不 需要 跟踪 自 上 次 成 功 抽取 以 来 的 数据 变化 。 
源 系 统 只 需要 原样 提供 现 有 的 数据 而 不 需要 附加 的 逻辑 信息 (比如 时 


aS) 。 一 个 全 表 导 出 的 数据 文件 或 者 一 个 查询 源 表 所 有 数据 的 
SQL 语句 ， 都 是 全 量 抽取 的 例子 。 


(2) 增 量 抽取 


只 抽取 某 个 事件 发 生 的 特定 时 间 点 之 后 的 数据 。 通 过 该 事件 发 生 
的 时 间 顺 序 能 够 反映 数据 的 历史 变化 ， 它 可 能 是 最 后 一 次 成 功 抽取 ， 
也 可 能 是 一 个 复杂 的 业务 事件 ， 如 最 后 一 次 财务 结算 等 。 必 须 能 够 标 
识 出 特定 时 间 点 之 后 所 有 的 数据 变化 。 这 些 发 生变 化 的 数据 可 以 由 源 
系统 自身 来 提供 ， 例 如 能 够 反映 数据 最 后 发 生变 化 的 时 间 戳 列 ， 或 者 
是 一 个 原始 事务 处 理 之 外 的 ， 只 用 于 跟踪 数据 变化 的 变更 日 志 表 。 大 
多 数 情况 下 ， 使 用 后 者 意味 着 需要 在 源 系 统 上 增加 抽取 逻辑 。 


在 许多 数据 仓库 中 ， 抽 取 过 程 不 含 任何 变化 数据 捕获 技术 。 取 而 
代 之 的 是 ， 把 源 系 统 中 的 整个 表 抽取 到 数据 仓库 过 渡 区 ， 然 后 用 这 个 
表 的 数据 和 上 次 从 源 系统 抽取 得 到 的 表 数 据 作 比 对 ， 从 而 找 出 发 生变 
化 的 数据 。 虽 然 这 种 方法 不 会 对 源 系统 造成 很 大 的 影响 ， 但 显然 需要 
考虑 给 数据 仓库 处 理 增加 的 负担 ， 尤 其 是 当 数 据 量 很 大 的 时 候 。 


2. 物理 抽取 


依赖 于 选择 的 逻辑 抽取 方法 和 能 够 对 源 系统 所 做 的 操作 和 所 受 的 
限制 ， 存 在 两 种 物理 数据 抽取 机 制 : 直接 从 源 系 统 联 机 抽取 或 者 间接 
从 一 个 脱 机 结构 抽取 数据 。 这 个 脱 机 结构 有 可 能 已 经 存在 ， 也 可 能 需 
要 由 抽取 程序 生成 。 


(1) 联机 抽取 


数据 直接 从 源 系统 抽取 。 抽 取 进 程 或 者 直 连 产 系 统 数 据 库 ， 访 间 
它们 的 数据 表 ， 或 者 连接 到 一 个 存储 快照 日 志 或 变更 记录 表 的 中 间 层 


系统 。 注 意 这 个 中 间 层 系统 并 不 需要 必须 和 源 系 统 物理 分 离 。 
(2) 脱 机 抽取 


数据 不 从 源 系统 直接 抽取 ， 而 是 从 一 个 源 系统 以 外 的 过 渡 区 抽 
取 。 过 渡 区 可 能 已 经 存在 (例如 数据 库 备 份 文件 、 关 系数 据 库 系 统 的 
重 做 日 志 、 归 档 日 志 等 ) ， 或 者 抽取 程序 自己 建立 。 应 该 考虑 以 下 的 
存储 结构 : 


。 数据 库 备 份 文件 。 一 般 需 要 数据 还 原 操作 才 能 使 用 。 

© 备用 数据 库 。 如 Oracle 的 DataGuard 和 和 MySQL 的 数据 复制 等 技 
术 。 

。 平面 文件 。 数 据 定义 成 普通 格式 ， 关 于 源 对 象 的 附加 信息 ( 列 
名 、 数 据 类 型 等 ) 需要 另外 处 理 。 

。 导出 文件 。 天 系数 据 库 大 都 自 市 数据 导出 功能 ， 如 Oracle 的 
exp/expdp 程 序 和 MySQL 的 mysqldump 程 序 ， 都 可 以 用 于 生成 导 


出 效 据 文 件 。 

。 重 做 日 志和 归档 日 志 。 每 种 数据 库 系统 都 有 自己 的 日 志 格式 和 
解析 工具 。 

3. 变化 数据 捕获 


抽取 处 理 需 要 重点 考虑 增 量 抽取 ， 也 被 称 为 变化 数据 捕获 ， 简 称 
CDC。 假 设 一 个 数据 仓库 系统 ， 在 每 天 夜里 的 业务 低 峰 时 间 从 操作 型 
源 系统 抽取 数据 ， 那 么 增 量 抽取 只 需要 过 去 24 小 时 内 发 生变 化 的 数 
据 。 变 化 数据 捕获 也 是 建立 准 实时 数据 仓库 的 关键 技术 。 


当 你 能 够 识别 并 获得 最 近 发 生变 化 的 数据 时 ， 抽 取 及 其 后 面 的 转 
换 、 装 载 操作 显然 都 会 变 得 更 高 效 ， 因 为 要 处 理 的 数据 量 会 小 很 多 。 


遗憾 的 是 ， 很 多 源 系统 很 难 识别 出 最 近 变 化 的 数据 ， 或 者 必须 侵入 源 
系统 才能 做 到 。 变 化 数据 捕获 是 数据 抽取 中 典型 的 技术 挑战 。 


常用 的 变化 数据 捕获 方法 有 时 间 戳 、 快 照 、 触 发 器 和 日 志 四 种 。 
相信 熟悉 数据 库 的 读者 对 这 些 方法 都 不 会 阳 生 。 时 间 戳 方法 需要 源 系 
统 有 相应 的 数据 列表 示 最 后 的 数据 变化 。 快 照 方法 可 以 使 用 数据 库 系 
统 自 带 的 机 制 实现 ， 如 Oracle 的 物化 视图 技术 ， 也 可 以 自己 实现 相关 
逻辑 ， 但 会 比较 复杂 。 和 触发 器 是 关系 数据 库 系 统 具 有 的 特性 ， 产 表 上 
建立 的 触发 器 会 在 对 该 表 执 行 insert、update、delete 等 语句 时 被 触发 ， 
触发 器 中 的 逻辑 用 于 捕获 数据 的 变化 。 日 志 可 以 使 用 应 用 日 志 或 系统 
日 志 ， 这 种 方式 对 源 系 统 不 具有 侵入 性 ， 但 需要 额外 的 日 志 解 析 工 
作 。 关 于 这 4 种 方案 的 特点 ， 将 会 在 本 书 第 7 章 “ 数 据 抽取 ”具体 说 明 。 


1.4.2 ”数据 转换 


数据 从 操作 型 源 系统 获取 后 ， 需 要 进行 多 种 转换 操作 。 如 统一 数 
据 类 型 、 处 理 拼写 错误 、 消 除数 据 歧义 、 解 析 为 标准 格式 等 。 数 据 转 
换 通 常 是 最 复杂 的 部 分 ， 也 是 ETL 开 发 中 用 时 最 长 的 一 步 。 数 据 转 换 
的 泄 围 极 广 ， 从 单纯 的 效 据 类 型 转化 到 极为 复杂 的 数据 清洗 技术 。 


在 数据 转换 阶段 ， 为 了 能 够 最 终 将 数据 装载 到 数据 仓库 中 ， 需 要 
在 已 经 抽取 来 的 数据 上 应 用 一 系列 的 规则 和 函数 。 有 些 数 据 可 能 不 需 
要 转换 就 能 直接 导入 到 数据 仓库 。 


数据 转换 一 个 最 重要 的 功能 是 清洗 数据 ， 目 的 是 只 有 “ 合 规 ”的 数 
据 才 能 进入 目标 数据 仓库 。 这 步 操作 在 不 同系 统 间 交互 和 通信 时 尤其 
必要 ， 例 如 ， 一 个 系统 的 字符 集 在 另 一 个 系统 中 可 能 是 无 效 的 。 另 一 
方面 ， 由 于 某 些 业务 和 技术 的 需要 ， 也 需要 进行 多 种 数据 转换 ， 例 如 
下 面 的 情况 : 


。 只 装载 特定 的 数据 列 。 例 如 ， 某 列 为 空 的 数据 不 装载 。 


统一 数据 编码 。 例 如 ， 性 别 字段 ， 有 些 系统 使 用 的 是 1 和 0， 有 
tee MAE, BEE AM’, BM MAF’. 

自由 值 编码 。 例 如 ， 将 ‘Male’ 改 成 ‘M’。 

预计 算 。 例 如 ， 产 品 单价 * 购 买 数量 = 金额 。 

基于 某 些 规则 重新 排序 以 提高 查询 性 能 。 

合并 多 个 数据 源 的 数据 并 去 重 。 

预 聚合 。 例 如 ， 汇 总 销售 数据 。 

行列 转 置 。 

将 一 列 转 为 多 列 。 例 如 ， 某 列 存 储 的 数据 是 以 人 逗号 作为 分 隔 符 
的 字符 串 ， 将 其 分 割 成 多 列 的 单个 值 。 

合并 重复 列 。 

预 连接 。 例 如 ， 查 询 多 个 关联 表 的 数据 。 

数据 验证 。 针 对 验证 的 结果 采取 不 同 的 处 理 ， 通 过 验证 的 数据 
交 给 装载 步骤 ， 验 证 失败 的 数据 或 直接 丢弃 ， 或 记录 下 来 做 进 


一 步 检 查 。 
1.4.3 ”数据 装载 


ETL 的 最 后 步骤 是 把 转换 后 的 数据 装载 进 目 标 数据 仓库 。 这 步 操 
作 需 要 重点 考虑 两 个 问题 ， 一 是 数据 装载 的 效率 问题 ， 二 是 一 旦 装载 
过 程 中 途 失 败 了 ， 如 何 再 次 重复 执行 装载 过 程 。 

即使 经 过 了 转换 、 过 滤 和 清洗 ， 去 掉 了 部 分 噪声 数据 ， 但 需要 压 
载 的 数据 量 还 是 很 大 的 。 执 行 一 次 数据 装载 可 能 需要 几 个 小 时 的 时 
间 ， 同 时 需要 占用 大 量 的 系统 资源 。 要 提高 装载 的 效率 ， 加 快 装载 速 
度 ， 可 以 从 以 下 几 方 面 入 手 。 首 先 保证 足够 的 系统 资源 。 数 据 仓 库存 
储 的 都 是 海量 数据 ， 所 以 要 配置 高 性 能 的 服务 器 ， 并 且 要 独占 资源 ， 
不 要 与 别 的 系统 共用 。 在 进行 数据 装载 时 ， 要 禁用 数据 库 约束 (唯一 
性 、 非 空 性 ， 检 查 约束 等 ) 和 索引 ， 当 装载 过 程 完 全 结束 后 ， 再 启用 


这 些 约束 ， 重 建 索引 ， 这 种 方法 会 很 大 的 提高 装载 速度 。 在 数据 仓库 
环境 中 ， 一 般 不 使 用 数据 库 来 保证 数据 的 参考 完整 性 ， 即 不 使 用 数据 
库 的 外 键 约束 ， 它 应 该 由 ETL 工 具 或 程序 来 维护 。 


效 据 装载 过 程 可 能 由 于 多 种 原因 而 失败 ， 比 如 妆 载 过 程 中 某 些 源 
表 和 目标 表 的 结构 不 一 致 而 导致 失败 ， 而 这 时 已 经 有 部 分 表 装 载 成 功 
了 。 在 数据 量 很 大 的 情况 下 ， 如 何 能 在 重新 执行 装载 过 程 时 只 装载 失 
败 的 部 分 是 一 个 不 小 的 挑战 。 对 于 这 种 情况 ， 实 现 可 重复 装载 的 关键 
是 要 记录 下 失败 点 ， 并 在 小 载 程序 中 处 理 相 关 的 逻辑 。 还 有 一 种 情 
况 ， 就 是 装载 成 功 后 ， 数 据 又 发 生 了 改变 (比如 有 些 滞后 的 数据 在 
ETL 执 行 完 才 进 入 系统 ， 就 会 带 来 数据 的 更 新 或 新 增 ; ， 这 时 需要 重 
新 再 执行 一 遍 装载 过 程 ， 已 经 正确 装载 的 数据 可 以 被 覆盖 ， 但 相同 数 
据 不 能 重复 新 增 。 简 单 的 实现 方式 是 先 删 除 再 插入 ， 或 者 用 replace 
into、merge into 等 类 似 功 能 的 操作 。 


装载 到 数据 仓库 里 的 数据 ， 经 过 汇总 、 聚 合 等 处 理 后 交付 给 多 维 
立方 体 或 数据 可 视 化 、 仪 表盘 等 报表 工具 、BI 工 具 做 进一步 的 数据 分 
析 。 


1.4.4 ”开发 ETL 系统 的 方法 


ETL 系 统一 般 都 会 从 多 个 应 用 系统 整合 数据 ， 典 型 的 情况 是 这 些 
应 用 系统 运行 在 不 同 的 软 硬 件 平台 上 ， 由 不 同 的 厂商 所 支持 ， 各 个 系 
统 的 开发 团队 也 是 彼此 独立 的 ， 随 之 而 来 的 数据 多 样 性 增加 了 ETL 系 
统 的 复杂 性 。 

开发 一 个 ETL 系 统 ， 常 用 的 方式 是 使 用 数据 库 标 准 的 SQL 及 其 程 
序 化 语言 ， 如 Oracle 的 PL/SQL 和 MYySQL 的 存储 过 程 、 用 户 自 定义 函数 
(UDF) 等 。 还 可 以 使 用 Kettle 这 样 的 ETL 工 具 ， 这 些 工具 都 提供 多 种 
数据 库 连 接 器 和 多 种 文件 格式 的 处 理 能 力 ， 并 且 对 ETL 处 理 进 行 了 优 
化 。 使 用 工具 的 最 大 好 处 是 减少 编程 工作 量 ， 提 高 工作 效率 。 如 果 遇 


到 特殊 需求 或 特别 复杂 的 情况 ， 可 能 还 是 需要 使 用 Shell、Java、 
Python 等 编程 语言 开发 自己 的 应 用 程序 。 


ETL 过 程 要 面 对 大 量 的 数据 ， 因 此 需要 较 长 的 处 理 时 间 。 为 了 所 
高 ETL 的 效率 ， 通 常 这 三 步 操 作 会 并 行 执 行 。 当 数据 被 抽取 时 ， 转 换 
进程 同时 处 理 已 经 收 到 的 数据 。 一 旦 某 些 数据 被 转换 过 程 处 理 完 ， 装 
载 进 程 就 会 将 这 些 数据 导入 目标 数据 仓库 ， 而 不 会 等 到 前 一 步 工作 执 
行 完 才 开始 。 


145 ”常见 ETL 工 具 


传统 大 的 软件 厂商 一 般 都 提供 ETL 工 具 软 件 ， 如 Oracle 的 OWB 和 
ODI、 微 软 的 SQL Server Integration Services、SAP 的 Data Integrator, 
IBM 的 InfoSphere DataStage、Informatica 等 。 这 里 简单 介绍 另外 一 种 开 
源 的 ETL 工 具 一 Kettleo 


Kettle 是 Pentaho 公 司 的 数据 整合 产品 ， 它 可 能 是 现在 世界 上 最 流 
行 的 开源 ETL 工 具 ， 经 常 被 用 于 数据 仓库 环境 。Kettle 的 使 用 场景 
fh: 在 应 用 或 数据 库 间 迁移 数据 、 把 数据 库 中 的 数据 导出 成 平面 文 
件 、 向 数据 库 大 批量 导入 数据 、 数 据 转 换 和 清洗 、 应 用 整合 等 。 


Kettle 里 主要 有 “转换 ”和 “作业 ”两 个 功能 模块 。 转 换 是 ETL 解 决 方 
案 中 最 主要 的 部 分 ， 它 处 理 ETL 各 阶段 各 种 对 数据 的 操作 。 转 换 有 输 
入 、 输 出 、 检 验 、 映 射 、 加 密 、 脚 本 等 很 多 分 类 ， 每 个 分 类 中 包括 多 
个 步 又， 如 输入 转换 中 就 有 表 输 入 、CSV 文 件 输入 、 文 本 文件 输入 等 
很 多 步骤 。 转 换 里 的 步骤 通过 跳 (hop) 来 连接 ， 跳 定义 了 一 个 单 向 通 
道 ， 人 允许 数 据 从 一 个 步骤 流向 另外 一 个 步骤 。 在 Kettle 里 ， 数 据 的 单位 
是 行 ， 效 气流 融 是 数据 行 从 一 个 步骤 到 另 一 个 步骤 的 移动 。 

转换 是 以 并 行 方式 执行 的 ， 而 作业 则 是 以 串 行 方式 处 理 的 ， 验 证 
数据 表 是 否 存 在 这 样 的 操作 就 需要 作业 来 完成 。 一 个 作业 包括 一 个 或 


多 个 作业 项 ， 作 业 项 是 以 某 种 顺序 来 执行 的 ， 作 业 执 行 顺 序 由 作业 项 
之 间 的 跳 (hop) 和 每 个 作业 项 的 执行 结果 决定 。 和 转换 一 样 ， 作 业 也 
有 很 多 分 类 ， 每 个 分 类 中 包括 多 个 作业 项 ， 如 转换 就 是 一 个 通用 分 类 
里 的 作业 项 。 作 业 项 也 可 以 是 一 个 作业 ， 此 时 称 该 作业 为 子 作 业 。 

Kettle 非 常 容易 使 用 ， 其 所 有 的 功能 都 通过 用 户 界面 完成 ， 不 需要 
任何 编码 工作 。 你 只 需要 告诉 它 做 什么 ， 而 不 用 指示 它 怎 么 做 ， 这 大 
大 提高 了 ETL 过 程 的 开发 效率 。 本 书 第 5 章 将 会 详细 说 明 怎 样 使 用 
Kettle 操 作 Hadoop 数 据 。 


15 ”数据 仓库 需求 


本 小 节 从 基本 需求 和 数据 需求 两 方面 介绍 对 数据 仓库 系统 的 整体 
要 求 。 


1.51 基本 需求 


数据 仓库 的 目的 就 是 能 够 让 用 户 方 便 地 访问 大 量 数据 ， 人 允许 用 户 
查询 和 分 析 其 中 的 业务 信息 。 这 就 要 求 数据 仓库 必须 是 安全 的 、 可 访 
问 的 和 自动 化 的 。 


1. 安全 性 


数据 仓库 中 含有 机 密 和 敏感 的 数据 。 为 了 能 够 使 用 这 些 数据 ， 必 
须 有 适当 的 授权 机 制 。 这 意味 着 只 有 被 授权 的 用 户 才能 访问 数据 ， 这 
些 用 户 在 享有 特权 的 同时 ， 也 有 责任 保证 数据 的 安全 。 


增加 安全 特性 会 影响 到 数据 仓库 的 性 能 ， 因 此 必须 提早 考虑 数据 
仓库 的 安全 需求 。 当 数据 仓库 已 经 建立 完成 并 开始 使 用 后 ， 此 时 再 应 


用 安全 特性 会 比较 困难 。 在 数据 仓库 的 设计 阶段 ， 我 们 就 应 该 进行 如 
下 的 安全 性 考虑 : 


数据 仓库 中 的 数据 对 于 最 终 用 户 是 只 读 的 ， 任 何人 都 不 能 修改 
其 中 的 数据 ， 这 是 由 数据 的 非 易 失 性 所 决定 的 。 

划分 数据 的 安全 等 级 ， 如 公开 的 、 机 密 、 秘 密 、 绝 密 等 。 

制定 访问 控制 方案 ， 决 定 哪些 用 户 可 以 访问 哪些 数据 。 

设计 授予 、 回 收 、 变 更 用 户 访问 权限 的 方法 。 

添加 对 数据 访问 的 审计 功能 。 


2。 可 访问 性 


能 够 快速 准确 地 分 析 所 需要 的 数据 是 辅助 决策 支持 的 关键 。 有 了 
数据 的 支持 ， 业 务 就 可 以 根据 市 场 和 客户 的 情况 做 出 及 时 地 调整 。 这 
就 要 求 用 户 能 够 有 效 地 查找 、 理 解 和 使 用 数据 。 数 据 应 该 是 随时 可 访 
问 的 。 


数据 的 可 访问 性 是 一 个 IT 技术 的 通用 特性 。 这 里 数据 可 访问 性 指 
的 是 用 户 访问 和 检索 数据 的 能 力 。 数 据 仓 库 的 最 终 用 户 通常 是 业务 人 
员 、 管 理 人 员 或 者 数据 分 析 师 。 他 们 对 组 织 内 的 相关 业务 非常 熟悉 ， 
对 数据 的 理解 也 很 透彻 ， 但 是 他 们 大 都 不 是 IT 技 术 专 家 。 这 就 要 求 我 
们 在 设计 数据 仓库 的 时 候 ， 将 用 户 接口 设计 得 尽量 友好 和 简单 ， 使 得 
没有 技术 背景 的 用 户 同 样 可 以 轻易 查询 到 他 们 需要 的 数据 。 


3. 自动化 


这 里 的 自动 化 有 狭义 和 广义 两 个 层面 的 理解 。 狭 义 的 自动 化 指 的 
是 数据 仓库 相关 作业 的 目 动 执行 。 比 如 ETL 过 程 、 报 表 生 成 、 数 据 传 
输 等 处 理 ， 都 可 以 周期 性 定时 自动 完成 。 广 义 的 数据 仓库 自动 化 指 的 
是 在 保证 数据 质量 和 数据 一 致 性 的 前 提 下 ， 加 速 数据 仓库 系统 开发 周 


期 的 过 程 。 整 个 数据 仓库 生命 周期 的 自动 化 ， 从 对 源 系统 分 析 到 
ETL， 天 到 数据 仓库 的 建立 、 测 试 和 文档 化 ， 可 以 帮助 加 快 产品 化 进 
程 ， 降 低 开发 和 管理 成 本 ， 提 高 数据 质量 。 


1.5.2 ”数据 需求 


通过 数据 仓库 ， 既 可 以 周期 性 地 回答 已 知 的 问题 (如 报表 等 ) ， 
也 可 以 进行 即席 查询 (ad-hoc queries) 。 报 表 最 基本 的 需求 就 是 对 预 
定义 好 的 一 系列 查询 条 件 、 查 询 内 容 ， 排 序 条 件 等 进行 组 合 ， 查 询 数 
据 ， 把 结果 用 表格 或 图 形 的 形式 展现 出 来 。 而 所 谓 的 即席 查询 不 是 预 
定义 好 的 ， 而 是 在 执行 时 才 确定 的 。 换 名 话说， 即席 查询 是 指 那些 用 
户 在 使 用 系统 时 ， 根 据 自己 当时 的 需求 定义 的 查询 。 数 据 库 管理 员 使 
用 命令 行 或 客户 端 软件 ， 连 接 数 据 库 系统 执行 各 种 各 样 的 查询 语句 ， 
是 最 为 常见 的 一 种 即席 查询 方式 。 而 理想 的 数据 仓库 系统 ， 人 允许 业务 
或 分 析 人 员 也 可 以 通过 系统 执行 这 样 的 自 定 义 查 询 。 为 了 满足 需求 ， 
数据 仓库 中 的 数据 需要 确保 准确 性 、 时 效 性 和 历史 可 追溯 性 。 


1。 准 确 性 


想 要 数据 仓库 实施 成 功 ， 业 务 用 户 必须 信任 其 中 的 数据 。 这 就 意 
味 着 他 们 应 该 能 知道 数据 从 哪 来 ， 何 时 抽取 ， 怎 么 转换 的 。 更 重要 的 
是 ， 他 们 需要 访问 原始 数据 来 确定 如 何 解决 数据 差异 问题 。 实 际 上 
ETL 过 程 应 该 总 是 在 数据 仓库 的 某 个 地 方 (如 ODS) 保留 一 份 原始 数 
据 的 复制 。 


2。 时 效 性 


用 户 的 时 效 性 要 求 差异 很 大 。 有 些 用 户 需要 数据 精确 到 宫 秒 级 ， 
而 有 些 用 户 只 需要 几 分 钟 、 几 小 时 甚至 几 天 前 的 数据 就 可 以 了 。 数 据 


仓库 是 分 析 型 系统 ， 用 于 决策 支持 ， 所 以 实践 中 一 般 不 需要 很 强 的 实 
时 性 ， 以 一 天 作为 时 间 粒 度 是 比较 常见 的 。 


3. 历史 可 追溯 性 


数据 仓库 更 多 的 价值 体现 在 它 能 够 辅助 随时 间 变 化 的 趋势 分 析 ， 
并 帮助 理解 业务 事件 〈 如 特殊 节日 促销 等 ) 与 经 营 绩效 之 间 的 关系 。 


1.6 小结 


(1) 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 随 时 间 变 化 的 、 非 易 
失 的 数据 集合 ， 用 于 支持 管理 者 的 决策 过 程 。 

(2) 数据 仓库 中 的 粒度 是 措 数 据 的 细节 或 汇总 程度 ， 细 节 程 度 越 
高 ， 粒 度 级 别 越 低 。 

(3) 数据 仓库 的 数据 来 自 各 个 业务 应 用 系统 。 

(4) 很 多 因素 导致 直接 访问 业务 系统 无 法 进行 全 局 数据 分 析 的 工 
作 ， 这 也 是 需要 一 个 数据 仓库 的 原因 所 在 。 

(5) 操作 型 系统 是 一 类 专门 用 于 管理 面向 事务 的 应 用 信息 系统 ， 
而 分 析 型 系统 是 一 种 快速 回答 多 维 分 析 查 询 的 实现 方式 ， 两 者 在 很 多 
方面 存在 差异 。 

(6) 构成 数据 仓库 系统 的 主要 组 成 部 分 有 数据 源 、ODS、 中 心 数 
据 仓库 、 分 析 查 询 引 擎 、ETL、 元 数据 管理 和 自动 化 调度 。 

(7) 主要 的 数据 仓库 架构 有 独立 数据 集 市 、 从 属 数据 集 市 、 
Inmon 企 业 信息 工厂 、Kimball 多 维 数据 仓库 、 混 合 型 数据 仓库 。 

(8) ETIL 是 建立 数据 仓库 最 重要 的 处 理 过 程 ， 也 是 最 体现 工作 量 
的 环节 。 


(9) Kettle 是 常用 的 开源 ETL 工 具 。 


(10) 数据 仓库 的 基本 需求 是 安全 性 、 可 访问 性 、 自 动 化 ， 对 数 
据 的 要 求 是 准确 性 、 时 效 性 、 历 史 可 追 溯 性 。 


第 2 章 
< 数据 仓库 设计 基础 > 


本 章 首 先 介 绍 关系 数据 模型 、 多 维 数据 模型 和 Data Vault 模 型 这 三 
种 常见 的 数据 仓库 模型 和 与 之 相关 的 设计 方法 ， 然 后 讨论 数据 集 市 的 
设计 问题 ， 最 后 说 明 一 个 数据 仓库 项 目的 实施 步骤 。 规 划 实 施 过 程 是 
整个 数据 仓库 设计 的 重要 组 成 部 分 。 


天 系 模型 、 多 维 模 型 已 经 有 很 长 的 历史 ， 而 Data Vault 模 型 相对 比 
较 新 。 它 们 都 是 流行 的 数据 仓库 建 模 方式 ， 但 又 有 各 自 的 特点 和 适用 
场景 。 读 者 在 了 解 了 本 章 的 内 容 后 ， 可 以 根据 实际 需求 选择 适合 的 方 
法 构建 目 己 的 数据 仓库 。 


2.1 关系 数据 模型 


天 系 模型 是 由 E.FCodd 在 1970 年 提出 的 一 种 通用 数据 模型 。 由 于 
天 系数 据 模型 简单 明了 ， 并 且 有 坚实 的 数学 理论 基础 ， 所 以 一 经 推出 
就 受到 了 业界 的 高 度 重视 。 关 系 模型 被 广泛 应 用 于 数据 处 理 和 数据 存 
储 ， 尤 其 是 在 数据 库 领域 ， 现 在 主流 的 数据 库 管理 系统 几乎 都 是 以 天 
系数 据 模 型 为 基础 实现 的 。 


2.1.1 关系 数据 模型 中 的 结构 


天 系数 据 模 型 基于 关系 这 一 数学 概念 。 在 本 小 节 中 ， 解 释 关 系数 
据 模 型 中 的 术语 和 相关 概念 。 为 了 便于 说 明 ， 我 们 使 用 一 个 分 公司 - 员 
工 关 系 的 例子 。 假 设 有 一 个 大 型 公司 在 全 国都 有 分 公司 ， 每 个 员工 属 


于 一 个 分 公司 ， 一 个 分 公司 有 一 个 经 理 ， 分 公司 经 理 也 是 公司 员工 。 
分 公司 -员工 关系 如 图 2-1 所 示 。 


公司 表 cH 
分 公司 编号 ip Character I-0O— —Os« 员工 编号 pi» Characters 
地 址 Variable characters 姓名 Variable characters 
城市 Variable characters 性 别 Characters 
省 份 Variable characters = cy | 职位 类 别 Variable characters 
i£ Charact 7 ”| 出 生日 Date 
分 公司 经 理 «fi» Characters 所 属 分 公司 «fi» Characters 


图 2-1 分 公司 -员工 关系 
1. 关系 


由 行 和 列 构成 的 二 维 结构 ， 对 应 关系 数据 库 中 的 表 ， 如 示例 中 的 
分 公司 表 和 员工 表 。 注 意 ， 这 种 认识 只 是 我 们 从 逻辑 上 看 待 天 系 模型 
的 方式 ， 并 不 应 用 于 表 在 磁盘 上 的 物理 结构 。 表 的 物理 存储 结构 可 以 
是 堆 文 件 、 索 引文 件 或 哈 希 文件 。 堆 文件 是 一 个 无 序 的 数据 集合 ， 这 
引文 件 中 表 数 据 的 物理 存储 顺序 和 逻辑 顺序 保持 一 致 ， 哈 希 文 件 也 称 
为 直接 存 取 文 件 ， 是 通过 一 个 预先 定义 好 的 哈 硕 函数 确定 数据 的 物理 
存储 位 置 。 


2。 属 性 


由 属性 名 称 和 类 型 名 称 构 成 的 顺序 对 ， 对 应 关系 数据 库 中 表 的 
列 ， 如 地 址 (Variable Characters) 是 公司 表 的 一 个 属性 。 属 性 值 是 属 
性 的 一 个 特定 的 有 效 值 ， 可 以 是 简单 的 标量 值 ， 也 可 以 是 复合 数据 类 
型 值 。 


在 关系 数据 模型 中 ， 我 们 把 关系 描述 为 表 ， 表 中 的 行 对 应 不 同 的 
记录 ， 表 中 的 列 对 应 不 同 的 属性 。 属 性 可 以 以 任何 顺序 出 现 ， 而 关系 
保持 不 变 ， 也 就 是 说 ， 在 关系 理论 中 ， 表 中 的 列 是 没有 顺序 的 。 


3。 属 性 域 


属性 的 取 值 范 围 。 每 一 个 属性 都 有 一 个 预定 义 的 值 的 范围 。 属 性 
域 是 关系 模型 的 一 个 重要 特征 ， 关 系 中 的 每 个 属性 都 与 一 个 域 相 关 。 
各 个 属性 的 域 可 能 不 同 ， 也 可 能 相同 。 域 描述 了 属性 所 有 可 能 的 值 。 

域 的 概念 是 很 重要 的 ， 因 为 它 允 许 我 们 定义 属性 可 以 具有 的 值 的 
意义 。 系 统 可 因此 获得 更 多 的 信息 ， 并 且 可 以 拒绝 不 合理 的 操作 。 在 
我 们 的 例子 中 ， 分 公司 编号 和 员工 编号 都 是 字符 串 ， 但 显然 具有 不 同 
的 含义 ， 换 句 话说 ， 它 们 的 属性 域 是 不 同 的 。 表 2-1 列 出 了 分 公司 - 员 
工 关系 的 一 些 属性 域 。 


表 2-1 分 公司 -员工 关系 的 一 些 属性 域 


属性 属性 域 的 定义 含义 

字符 : 大 小 为 4， 范 围 为 B001-B999 设置 所 有 可 能 的 分 公司 编号 
地 址 字符 : 大 小 为 100 设置 所 有 可 能 的 地 址 
员工 编号 | 字符 : 大 小 为 5， 范 围 为 S0001-S9999 设置 所 有 可 能 的 员工 编号 
职位 类 别 管理 、 技 术 、 销 售 、 运 营 、 产 品 之 一 设置 所 有 可 能 的 员工 职位 类 别 


4. 元 组 


关系 中 的 一 条 记录 ， 对 应 关系 数据 库 中 的 一 个 表 行 。 元 组 可 以 以 
任何 顺序 出 现 ， 而 关系 保持 不 变 ， 也 就 是 说 ， 在 关系 理论 中 ， 表 中 的 
行 是 没有 顺序 的 。 


5. 关系 数据 库 


一 系列 规范 化 的 表 的 集合 。 这 里 的 规范 化 可 以 理解 为 表 结 构 的 正 
确 性 。 本 节 后 面 会 详细 讨论 规 沁 化 问题 。 


以 上 介绍 了 关系 数据 模型 的 两 组 术语 :“ 关 系 、 属 性 、 元 组 > 和 
“ 表 、 列 、 行 "在 这 里 它们 的 含义 是 相同 的 ， 只 不 过 前 者 是 关系 数据 
模型 的 正式 术语 ， 而 后 者 是 党 用 的 数据 库 术 语 。 其 他 可 能 会 遇 到 的 类 
似 术 语 还 有 实体 (R). BR (00) 、 字 段 ( 列 ) 等 。 


6. 关系 表 的 属性 
天 系 表 有 如 下 属性 : 


每 个 表 都 有 唯一 的 名 称 。 

一 个 表 中 每 个 列 有 不 同 的 名 字 。 
一 个 列 的 值 来 目 于 相同 的 属性 域 。 
列 是 无 序 的 。 

行 是 无 序 的 。 


7. 关系 数据 模型 中 的 键 
(1) 超 键 


一 个 列 或 者 列 集 ， 唯 一 标识 表 中 的 一 条 记录 。 超 键 可 能 包含 用 于 
唯一 标识 记录 所 不 炎 要 的 额外 的 列 ， 我 们 通常 只 对 仅 包含 能 够 唯一 标 
识 记录 的 最 小 数量 的 列 感 兴趣 


(2) 候选 键 


仅 包含 唯一 标识 记录 所 必需 的 最 小 数量 列 的 超 键 。 表 的 候选 键 有 
三 个 属性 : 


。 唯一 性 : 在 每 条 记录 中 ， 候 选 键 的 值 唯一 标识 该 记录 。 

。 最 小 性 : 具有 唯一 性 属性 的 超 键 的 最 小 子 集 。 

。 非 空 性 : 候选 键 的 值 不 允许 为 空 

在 我 们 的 例子 中 ， 分 公司 编号 是 候选 键 ， 如 果 每 个 分 公司 的 邮编 
都 不 同 ， 那 么 邮编 也 可 以 作为 分 公司 表 的 候选 键 。 一 个 表 中 允许 有 多 
个 候选 键 。 


(3) 主键 


唯一 标识 表 中 记录 的 候选 键 。 主 键 是 唯一 、 非 空 的 。 没 有 被 选 做 
主键 的 候选 键 称 为 备用 键 。 对 于 例子 中 的 分 公司 表 ， 分 公司 编号 是 主 
键 ， 邮 编 就 是 备用 键 ， 而 员工 表 的 主键 是 员工 编号 。 


主键 的 选择 在 关系 数据 模型 中 非 党 重要， 很 多 性 能 问题 都 是 由 于 
主键 选择 不 当 引 起 的 。 在 选择 主键 时 ， 我 们 可 以 参考 以 下 原则 : 


。 主键 要 尽 可 能 地 小 。 

。 主键 值 不 应 该 被 改变 。 主 键 会 被 其 他 表 所 引用 。 如 果 改 变 了 主 
键 的 值 ， 所 有 5 引用 该 主键 的 值 都 需要 修改 ， 否 则 5 引用 融 是 无 效 
的 。 

主键 通常 使 用 数字 类 型 。 数 字 类 型 的 主键 要 比 其 他 数据 类 型 效 
率 更 高 。 

主键 应 该 是 没有 业务 含义 的 ， 它 不 应 包含 实际 的 业务 信息 。 无 
意义 的 数字 列 不 需要 修改 ， 因 此 是 主键 的 理想 选择 。 大 部 分 关 
系 型 数据 库 支 持 的 目 增 属性 或 序列 对 象 更 适合 当 作 主键 。 
虽然 主键 允许 由 多 列 组 成 ， 但 应 该 使 用 尽 可 能 少 的 列 ， 最 好 是 
单列 。 


(4) 外 键 


一 个 表 中 的 一 个 列 或 多 个 列 的 集合 ， 这 些 列 匹配 某 些 其 他 (也 可 
以 是 同一 个 ) 表 中 的 候选 键 。 注 意外 键 所 引用 的 不 一 定 是 主键 ， 但 一 
定 是 候选 键 。 当 一 列 出 现在 两 张 表 中 的 时 候 ， 它 通常 代表 两 张 表 记录 
之 间 的 关系 。 如 例子 中 分 公司 表 的 分 公司 编号 和 员工 表 的 所 属 分 公 
司 。 它 们 的 名 字 虽 然 不 同 ， 但 却 是 同一 含义 。 分 公司 表 的 分 公司 编号 
是 主键 ， 在 员工 表 里 所 属 分 公司 是 外 键 。 同 样 ， 因 为 公司 经 理 也 是 公 


司 员工 ， 所 以 它 是 引用 员工 表 的 外 键 。 主 键 所 在 的 表 被 称 为 父 表 ， 外 
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2.1.2 ”关系 完整 性 


上 一 小 节 讨论 了 和 关系 数据 模型 的 结构 部 分 ， 本 小 节 讨 论 天 系 完 整 
性 规则 。 关 系数 据 模 型 有 两 个 重要 的 完整 性 规则 : 实体 完整 性 和 参照 
完整 性 。 在 定义 这 些 术语 之 前 ， 先 要 理解 空 值 的 概念 。 


1. 空 值 (NULL) 


表示 一 个 列 的 值 目前 还 不 知道 或 者 对 于 当前 记录 来 说 不 可 用 。 空 
值 可 以 意味 着 未 知 ， 也 可 以 意味 着 某 个 记录 没有 值 ， 或 者 只 是 意味 着 
该 值 还 没有 提供 。 空 值 是 处 理 不 完整 数据 或 异常 数据 的 一 种 方式 。 空 
值 与 数字 零 或 者 空 字符 串 不 同 ， 零 和 空 字 符 串 是 值 ， 但 空 值 代表 没有 
值 。 因 此 ， 空 值 应 该 与 其 他 值 区 别 对 待 。 空 值 具 有 特殊 性 ， 当 它 参 与 
逻辑 运算 时 ， 结 果 取 决 于 真 值 表 。 每 种 数据 库 系统 对 空 值 参与 运算 的 
规则 定义 也 不 尽 相同 。 表 2-2 到 表 2-4 分 别 是 Oracle 的 非 、 与 、 或 逻辑 运 
算 真 值 表 。 


表 2-2 Oracle 逻辑 非 运算 


| TRUE | FALSE | NULL 


NOT FALSE TRUE NULL 


表 2-3 Oracle 逻辑 与 运算 


AND TRUE FALSE NULL 
FALSE FALSE FALSE FALSE 
NULL | NULL FALSE | NULL 


表 2-4 Oracle 逻辑 或 运算 


FALSE TRUE FALSE NULL 
NULL | TRUE NULL | NULL 


在 我 们 的 例子 中 ， 如 果 一 个 分 公司 的 经 理 离 职 了 ， 新 的 经 理 还 没 
有 上 任 ， 此 时 公司 经 理 列 对 应 的 值 就 是 空 值 。 


2. 关系 完整 性 规则 
有 了 空 值 的 定义 ， 就 可 以 定义 两 种 关系 完整 性 规则 了 。 
(1) 实体 完整 性 


在 一 个 基本 表 中 ， 主 键 列 的 取 值 不 能 为 空 。 基 本 表 指 的 是 命名 的 
表 ， 其 中 的 记录 物理 地 存储 在 数据 库 中 ， 与 之 对 应 的 是 视图 。 视 图 是 
虚拟 的 表 ， 它 只 是 一 个 查询 语句 的 逻辑 定义 ， 其 中 并 没有 物理 存储 数 
据 。 


从 前 面 介 绍 的 定义 可 知 ， 主 键 是 用 于 唯一 标识 记录 的 最 小 列 集 
合 。 也 融 是 说 ， 主 键 的 任何 子 集 都 不 能 提供 记录 的 唯一 标识 。 空 值 代 
表 未 知 ， 无 法 进行 比较 。 如 果 人 允许 空 值 作为 主键 的 一 部 分 ， 就 意味 着 
并 不 是 所 有 的 列 都 用 来 区 分 记录 ， 这 与 主键 的 定义 矛盾 ， 因 此 主键 必 
须 是 非 空 的 。 例 如 ， 分 公司 编号 是 分 公司 表 的 主键 ， 在 录入 数据 的 时 
候 ， 该 列 的 值 不 能 为 空 。 


(2) 参照 完整 性 
如 果 表 中 存在 外 键 ， 则 外 键 值 必须 与 主 表 中 的 某 些 记录 的 候选 键 


值 相 同 ， 或 者 外 键 的 值 必 须 全 部 为 空 。 在 图 2-1 中 ， 员 工 表 中 的 所 属 分 
公司 是 外 键 。 该 列 的 值 要 么 是 分 公司 表 的 分 公司 编号 列 中 的 值 ， 要 么 


是 空 〈《 如 新 员工 已 经 加 入 了 公司 ， 但 还 没有 被 分 派 到 某 个 具体 的 分 公 
司 时 ) 。 


3。 业 务 规则 


定义 或 约束 组 织 的 某 些 方面 的 规则 。 业 务 规则 的 例子 包括 属性 域 
和 关系 完整 性 规则 。 属 性 域 用 于 约束 特定 列 能 够 取 的 值 。 有 些 数据 库 
系统 ， 如 Oracle， 支 持 叫 做 check 的 约束 ， 也 用 于 定义 列 中 可 以 接受 的 
值 ， 但 这 种 约束 是 定义 在 属性 域 之 上 的 ， 比 属性 域 的 约束 性 更 强 。 例 
如 ， 员 工 表 的 性 别 列 就 可 以 加 上 check 约 束 ， 使 它 只 能 取 有 限 的 几 个 
值 。 


4. 关系 数据 库 语 言 


关系 语言 定义 了 人 允许 对 数据 进行 的 操作 ， 包 括 从 数据 库 中 更 新 或 
多 索 数 据 所 用 的 操作 以 及 改变 数据 库 对 象 结构 的 操作 。 关 系数 据 库 的 
主要 语言 是 SQL 语言 。 

SQL 是 Structured Query Language 的 缩写 ， 意 为 结构 化 查询 语言 。 
SQL 已 经 被 国际 标准 化 组 织 (ISO) 进行 了 标准 化 ， 使 它 成 为 正式 的 和 
事实 上 的 定义 和 操纵 关系 数据 库 的 标准 语言 。SQL 语言 又 可 分 为 
DDL、DML、DCL、TCL 四 类 。 

DDL 是 Data Definition Language 的 缩写 ， 意 为 数据 定义 语言 ， 用 于 
定义 数据 库 结 构 和 模式 。 上 典型 的 DDL 有 create、alter、drop、truncate、 


comment、rename 等 。 
DML 是 Data Manipulation Language 的 缩写 ， 意 为 数据 操纵 语言 ， 
用 于 检索 、 管 理 和 维护 数据 库 对 象 。 典 型 的 DML 有 select、insert、 


update, delete, merge, call, explain, lock 


DCL 是 Data Control Language 的 缩写 ， 意 为 数据 控制 语言 ， 用 于 授 
予 和 回收 数据 库 对 象 上 的 权限 。 典 型 的 DCL 有 grant 和 revoke。 


TCL 是 Transaction Control Language 的 缩写 ， 意 为 事务 控制 语言 ， 
用 于 管理 DML 对 数据 的 改变 。 它 允许 一 组 DML 语 句 联合 成 一 个 逻辑 事 
务 。 典 型 的 TCL 有 commit、rollback、savepoint、 set transaction 等 。 


规范 化 


关系 数据 模型 的 规范 化 是 一 种 组 织 数据 的 技术 。 规 范 化 方法 对 表 
进行 分 解 ， 以 消除 数据 元 余 ， 避 人 免 异常 更 新 ， 提 高 数据 完整 性 。 


2.1.3 


不 规范 化 带 来 的 问题 


没有 规范 化 ， 数 据 的 更 新 处 理 将 变 得 困难 ， 异 常 的 插入 、 修 改 、 
删除 数据 的 操作 会 频繁 发 生 。 为 了 便于 理解 ， 来 看 下 面 的 例子 。 

假设 有 一 个 名 为 employee 的 员工 表 ， 它 有 九 个 属性 : id (员工 编 
号 ) 、name (员工 姓名 ) , mobile (电话 ) 、zip (邮编 ) province 
(省 份 ) . city 〈 城 市 ) 、district (KB) 、deptNo (所 属 部 门 编 
5) 、deptName (所 属 部 门 名 称 ) ， 表 中 的 数据 如 表 2-5 所 示 。 


表 2-5” 非 规范 化 的 员工 表 


id Name Mobile zip province city district deptNo | deptName 

101 | mad 13910000001 | 100001 | 北京 北京 ii DX DI 部 门 1 
13910000002 

101 张 三 13910000001 | 100001 | 北京 北京 海淀 区 D2 部 门 2 
13910000002 

102 李 四 13910000003 | 200001 | 上 海 上 海 静安 区 D3 门 3 

103 ac 13910000004 | 510001 | 广东 省 广州 白云 区 D4 门 4 

103 Ed 13910000004 | 510001 | 广东 省 广州 白云 区 D5 部 门 $ 


由 于 此 员工 表 是 非 规范 化 的 ， 我 们 将 面 对 如 下 的 问题 。 


修改 异常 : 上 表 中 张 三 有 两 条 记录 ， 因 为 他 隶属 两 个 部 门 。 如 果 
我 们 要 修改 张 三 的 地 址 ， 必 须 修改 两 行 记 录 。 假 如 一 个 部 门 得 到 了 张 
三 的 新 地 址 并 进行 了 更 新 ， 而 另 一 个 部 门 没有 ， 那 么 此 时 张 三 在 表 中 
会 存在 两 个 不 同 的 地 址 ， 导 致 了 数据 不 一 致 。 


新 增 异常 : 假如 一 个 新 员工 加 入 公司 ， 他 正 处 于 入 职 培训 阶段 ， 
还 没有 被 正式 分 配 到 某 个 部 门 ， 如 果 deptNo 字 段 不 允许 为 空 ， 我 们 就 
无 法 向 employee 表 中 新 增 该 员工 的 数据 。 

删除 异常 : 假设 公司 撤销 了 D3 这 个 部 门 ， 那 么 在 删除 deptNo 为 D3 
的 行 时 ， 会 将 李 四 的 信息 也 一 并 删除 。 因 为 他 只 隶属 于 D3 这 一 个 音 
门 。 

为 了 克服 这 些 异 常 更 新 ， 我 们 需要 对 表 进 行规 范 化 设计 。 规 范 化 
是 通过 应 用 范式 规则 实现 的 。 最 常用 的 范式 有 第 一 范式 (NF). £ 
二 范式 (2NF) 、 第 三 范式 (3NF) 。 


(1) 第 一 范式 (1NF) 


表 中 的 列 只 能 含有 原子 性 (不 可 再 分 ) 的 值 。 


上 例 中 张 三 有 两 个 手机 号 存储 在 mobile 列 中 ， 违 反 了 1NF 规 则 。 
为 了 使 表 满足 INF， 数 据 应 该 修改 为 如 表 2-6 所 示 。 


表 2-6 ”满足 INE 的 员工 表 


id name mobile zip province city district deptNo | deptName 
13910000001 | 100001 北京 海淀 区 DI 部 门 1 
13910000002 | 100001 | 北京 北京 海淀 区 DI 部 门 1 
13910000001 | 100001 北京 海淀 区 D2 部 门 2 
13910000002 | 100001 北京 海淀 区 | D2 部 门 2 
13910000003 | 200001 - 海 上 海 静安 区 D3 部 门 3 

103 EL 13910000004 | 510001 | 广东 省 广州 白云 区 D4 部 门 4 

103 FE 13910000004 | 510001 | 广东 省 广州 白云 区 D5 部 门 


(2) 第 二 范式 (2NF) 
第 二 范式 要 同时 满足 下 面 两 个 条 件 : 
. 满足 第 一 范式 。 
。 没有 部 分 依赖 。 
例如 ， 员 工 表 的 一 个 候选 键 是 {id ，mobile ，deptNo}， 而 
deptName fk $ F (deptNo) ， 同 样 name 仅 依赖 于 {id} ， 因 此 不 是 2NF 
的 。 为 了 满足 第 二 范式 的 条 件 ， 需 要 将 这 个 表 拆 分 成 employee、 


dept、 employee_dept、employee_mobile 四 个 表 ， 如 表 2-7 至 表 2-10 所 
不 o 


表 2-7 满足 2NF 的 员工 表 


zip province | District 
100001 北京 北京 海淀 区 
200001 上 海 - 海 静安 区 
510001 广东 省 Es 白云 区 


表 2-10 ”满足 2NF 的 员工 -电话 表 


ia mobie 0 000 0 | 
10 
10 
102 


103 13910000004 


(3) 第 三 范式 (3NF) 

第 三 范式 要 同时 满足 下 面 两 个 条 件 : 
° 满足 第 二 范式 。 

。 没有 传递 依赖 。 


例如 ， 员 工 表 的 province、city、district 依 赖 于 zip ， 而 zip 依 赖 于 
(id), HAAN, province. city. districtfz X6 RMF {id}, HER f 3NF 
规则 。 为 了 满足 第 三 范式 的 条 件 ， 可 以 将 这 个 表 拆 分 成 employee 和 zip 
两 个 表 ， 如 表 2-11、 表 2-12 所 示 。 


表 2-11 满足 3NF 的 员工 表 


100001 


102 李 四 200001 


103 | xx | 510001 


表 2-12 ”满足 3NF 的 地 区 表 


province | City 


District | 


100001 北京 | 北京 海淀 区 | 
200001 上 海 | 上 海 静安 区 
510001 广东 省 白云 区 


在 关系 数据 模型 设计 中 ， 一 般 需 要 满足 第 三 范式 的 要 求 。 如 果 一 
个 表 有 良好 的 主 外 键 设计 ， 就 应 该 是 满足 3NF 的 表 。 规 范 化 带 来 的 好 
处 是 通过 减少 数据 匈 余 提 高 更 新 数据 的 效率 ， 同 时 保证 数据 完整 性 。 


然而 ， 我 们 在 实际 应 用 中 也 要 防止 过 度 规范 化 的 问题 。 规 范 化 程度 越 
高 ， 划 分 的 表 就 越 多 ， 在 查询 数据 时 越 有 可 能 使 用 表 连 接 操作 。 而 如 
果 连 接 的 表 过 多 ， 会 影响 查询 的 性 能 。 关 键 的 问题 是 要 依据 业务 需 
求 ， 仔 细 权 衡 数据 查询 和 数据 更 新 的 关系 ， 制 定 最 适合 的 规范 化 程 
度 。 还 有 一 点 需要 注意 的 是 ， 不 要 为 了 遵循 严格 的 规范 化 规则 而 修改 
业务 需求。 


21.4 ”关系 数据 模型 与 数据 仓库 


天 系数 据 模型 可 以 提供 高 性 能 的 数据 更 新 操作 ， 能 很 好 地 满足 事 
务 型 系统 的 需求 ， 这 点 人 姓 良 置疑。 但 是 对 于 查询 与 分 析 密 集 型 的 数据 
仓库 系统 还 是 否 合适 呢 ? 对 这 个 问题 的 争论 由 来 已 久 ， 基 本 可 以 分 为 
Inmon 和 Kimball 两 大 阵营 ，Inmon 阵 营 是 应 用 关系 数据 模型 构建 数据 仓 
库 的 支持 者 。 


Inmon 方 法 是 以 下 面 这 些 假设 的 成 立 为 前 提 的 。 


假设 数据 仓库 是 以 企业 为 中 心 的， 初始 的 数据 能 够 为 所 有 部 门 
所 使 用 。 而 最 终 的 数据 分 析 能 力 是 在 部 门 级 别 体 现 ， 需 要 使 用 
数据 集 市 对 数据 仓库 中 的 数据 做 进一步 处 理 ， 以 便 为 特定 的 部 
门 定 制 它们 。 

数据 仓库 中 的 数据 不 违反 组 织 制定 的 任何 业务 规则 。 

必须 尽 可 能 快 地 把 新 数据 装载 进 数据 仓库 ， 这 意味 着 需要 简化 
数据 装载 过 程 或 减少 数据 的 装载 量 。 

数据 仓库 的 建立 必须 从 一 开始 就 被 设计 成 支持 多 种 BI 技术 ， 这 
束 要 求 数 据 仓库 本 身 所 使 用 的 技术 越 通用 越 好 。 

假设 数据 仓库 的 需求 一 定 会 发 生变 化 。 它 必须 能 完美 地 适应 其 
数据 和 数据 结构 的 变化 。 


基于 这 些 假设 ,使 用 关系 数据 模型 构建 数据 仓库 的 优势 和 必然 性 
MELBA E T o 


1。 非 元 余 性 


为 适应 数据 仓库 有 限 的 装载 周期 和 海量 数据 ， 数 据 仓库 数据 模型 
应 该 包含 最 少量 的 数据 见 余 。 风 余 越 少 ， 需 要 装载 的 数据 量 就 越 少 ， 
装载 过 程 就 越 快 。 另 外 ， 数 据 仓库 的 数据 源 一 般 是 事务 型 系统 ， 这 些 
系统 通常 是 规范 化 设计 的 。 如 果 数 据 仓 库 使 用 相同 的 数据 模型 ， 意 味 
着 数据 转换 的 复杂 性 可 能 会 降低 ， 同 样 可 以 加 快 数据 装载 速度 。 


2. 稳定 性 


由 于 数据 仓库 的 需求 会 不 断 变 化 ， 我 们 需要 以 一 种 达 代 的 方式 建 
立 数据 仓库 。 众 所 周知 ， 组 织 中 最 经 常 变化 的 是 它 的 处 理 过 程 、 应 用 
和 技术 ， 如 果 依 赖 于 这 三 个 因素 中 的 任何 一 个 建立 数据 模型 ， 当 它们 
发 生 改 变 时 ， 肯 定 要 对 数据 模型 进行 彻底 修改 。 为 了 避免 这 个 问题 ， 
关系 数据 模型 的 通用 性 正 是 用 武之 地 。 另 一 方面 ， 由 于 变化 不 可 避 
免 ， 数 据 仓库 模型 应 该 能 比较 容易 地 将 新 的 变化 合并 进来 ， 而 不 必 重 
新 设计 已 有 的 元 素 和 已 经 实现 的 实体 。 


3。 一 致 性 


数据 仓库 模型 最 本 质 的 特点 是 保证 作为 组 织 最 重要 资源 的 数据 的 
一 致 性 ， 而 确保 数据 一 致 性 正 是 关系 数据 模型 的 特点 之 一 。 


4. 灵活 性 


数据 仓库 最 重要 的 一 个 用 途 是 作为 坚实 的 、 可 靠 的 、 一 致 的 数据 
基础 为 后 续 的 报表 系统 、 数 据 分 析 、 数 据 挖掘 或 BI 系统 服务 。 数 据 模 


型 还 必须 支持 为 组 织 建立 的 业务 规则 。 这 就 意味 着 数据 模型 必须 比 简 
单 的 平面 文件 功能 更 强 。 为 此 关系 数据 模型 也 是 最 佳 选择 之 一 。 


天 系数 据 模型 已 被 证 明 是 可 靠 的 、 简 单 的 数据 建 模 方法 。 应 用 其 
规范 化 规则 ， 将 产生 一 个 稳定 的 、 一 致 的 数据 模型 。 该 模型 支持 由 组 
织 制 定 的 政策 和 约定 的 规则 ， 同 时 为 数据 集 市 分 析 数 据 提 供 了 更 多 的 
灵活 性 ， 使 得 数据 库存 储 以 及 数据 装载 方面 也 是 最 有 效 的 。 

当然 ， 任 何 一 种 数据 模型 都 不 可 能 是 完美 无 瑕 的 。 关 系数 据 模型 
的 缺点 也 很 明显 ， 它 需要 额外 建立 数据 集 市 的 存储 区 ， 并 增加 相应 的 
数据 闭 载 过 程 。 另 外 ， 对 数据 仓库 的 使 用 强烈 依赖 于 对 SQL 语 言 的 掌 
握 程度 。 


2.2 ”维度 数据 模型 


维度 数据 模型 简称 维度 模型 (Dimensional modeling, DM) ， 是 一 
套 技术 和 概念 的 集合 ， 用 于 数据 仓库 设计 。 不 同 于 关系 数据 模型 ， 维 
度 模型 不 一 定 要 引入 关系 数据 库 。 在 逻辑 上 相同 的 维度 模型 ， 可 以 被 
用 于 多 种 物理 形式 ， 比 如 维度 数据 库 或 是 简单 的 平面 文件 。 根 据 数据 
仓库 大 师 Kimball 的 观点 ， 维 度 模型 是 一 种 趋向 于 支持 最 终 用 户 对 数据 
仓库 进行 查询 的 设计 技术 ， 是 围绕 性 能 和 易 理 解 性 构建 的 。 尽 管 关 系 
模型 对 于 事务 处 理 系 统 表 现 非常 出 色 ， 但 它 并 不 是 面向 最 终 用 户 的 。 


事实 和 维度 是 两 个 维度 模型 中 的 核心 概念 。 事 实 表示 对 业务 数据 
的 度量 ， 而 维度 是 观察 数据 的 角度 。 事 实 通常 是 数字 类 型 的 ， 可 以 进 
行 聚合 和 计算 ， 而 维度 通常 是 一 组 层次 关系 或 描述 信息 ， 用 来 定义 事 
实 。 例 如 ， 销 售 金额 是 一 个 事实 ， 而 销售 时 间 、 销 售 的 产品 、 购 买 的 
顾客 、 商 店 等 都 是 销售 事实 的 维度 。 维 度 模型 按照 业务 流程 领域 即 主 
题 域 建 立 ， 例 如 进货 、 销 售 、 库 存 、 配 送 等 。 不 同 的 主题 域 可 能 共享 
某 些 维度 ， 为 了 提高 数据 操作 的 性 能 和 数据 一 致 性 ， 需 要 使 用 一 致 性 


维度 ， 例 如 几 个 主题 域 间 共 享 维度 的 复制 。 术 语 “ 一 致 性 维度 ” 源 自 
Kimball， 指 的 是 具有 相同 属性 和 内 容 的 维度 。 


2.2.1 ”维度 数据 模型 建 模 过 程 


维度 模型 通常 以 一 种 被 称 为 星 型 模式 的 方式 构建 。 所 谓 星 型 模 
式 ， 就 是 以 一 个 事实 表 为 中 心 ， 周 围 环 绕 着 多 个 维度 表 。 还 有 一 种 模 
式 叫 做 雪花 模式 ， 是 对 维度 做 进一步 规范 化 后 形成 的 。 本 节 后 面 会 讨 
论 这 两 种 模式 。 一 般 使 用 下 面 的 过 程 构建 维度 模型 : 


选择 业务 流程 
声明 粒度 
确认 维度 
确认 事实 


这 种 使 用 四 步 设 计 法 建立 维度 模型 的 过 程 ， 有 助 于 保证 维度 模型 
和 数据 仓库 的 可 用 性 。 


1. 选择 业务 流程 


确认 哪些 业务 处 理 流程 是 数据 仓库 应 该 覆盖 的 ， 是 维度 方法 的 基 
础 。 因 此 ， 建 模 的 第 一 个 步骤 是 描述 需要 建 模 的 业务 流程 。 例 如 ， 需 
要 了 解 和 分 析 一 个 零售 店 的 销售 情况 ， 那 么 与 该 零售 店 销售 相 天 的 所 
有 业务 流程 都 是 需要 关注 的 。 为 了 描述 业务 流程 ， 可 以 简单 地 使 用 纯 
文本 将 相关 内 容 记 录 下 来 ， 或 者 使 用 “业务 流程 建 模 标注 ”(BPMN) 
方法 ， 也 可 以 使 用 统一 建 模 语言 (UML) 或 其 他 类 似 的 方法 。 


2。 声 明 粒 度 


确定 了 业务 流程 后 ， 下 一 步 是 声明 维度 模型 的 粒度 。 这 里 的 粒度 
用 于 确定 事实 中 表示 的 是 什么 ， 例如， 一 个 零售 店 的 顾客 在 购物 小 票 
上 的 一 个 购买 条 目 。 在 选择 维度 和 事实 前 必须 声明 粒度 ， 因 为 每 个 候 
选 维 度 或 事实 必须 与 定义 的 粒度 保持 一 致 。 在 一 个 事实 所 对 应 的 所 有 
维度 设计 中 强制 实行 粒度 一 致 性 是 保证 数据 仓库 应 用 性 能 和 易 用 性 的 
天 键 。 从 给 定 的 业务 流程 获取 数据 时 ， 原 始 粒度 是 最 低级 别 的 粒度 。 
建议 从 原始 粒度 数据 开始 设计 ， 因 为 原始 记录 能 够 满足 无 法 预期 的 用 
户 查 询 。 汇 总 后 的 数据 粒度 对 优化 查询 性 能 很 重要 ， 但 这 样 的 粒度 往 
往 不 能 满足 对 细节 数据 的 查询 需求 。 不 同 的 事实 可 以 有 不 同 的 粒度 ， 
但 同一 事实 中 不 要 混用 多 种 不 同 的 粒度 。 维 度 模型 建立 完成 之 后 ， 还 
有 可 能 因为 获取 了 新 的 信息 ， 而 回 到 这 步 修改 粒度 级 别 。 


3。 确 认 维 度 


设计 过 程 的 第 三 步 是 确认 模型 的 维度 。 维 度 的 粒度 必须 和 第 二 步 
所 声明 的 粒度 一 致 。 维 度 表 是 事实 表 的 基础 ， 也 说 明了 事实 表 的 数据 
是 从 哪里 采集 来 的 。 典 型 的 维度 都 是 名 词 ， 如 日 期 、 商 店 、 库 存 等 。 
维度 表 存 储 了 某 一 维度 的 所 有 相关 数据 ， 例 如 ， 日 期 维度 应 该 包括 
年 、 季 度 、 月 、 周 、 日 等 数据 。 


4. 确认 事实 


确认 维度 后 ， 下 一 步 也 是 维度 模型 四 步 设计 法 的 最 后 一 步 ， 就 是 
确认 事实 。 这 一 步 识 别 数字 化 的 度量 ， 构 成 事实 表 的 记录 。 它 是 和 系 
统 的 业务 用 户 密 切 相关 的 ， 因 为 用 户 正 是 通过 对 事实 表 的 访问 获取 数 
据 仓 库存 储 的 数据 。 大 部 分 事实 表 的 度量 都 是 数字 类 型 的 ， 可 累加 ， 
可 计算 ， 如 成 本 、 数 量 、 金 额 等 。 


2.2.2 ”维度 规范 化 


与 关系 模型 类 似 ， 维 度 也 可 以 进行 规范 化 。 对 维度 的 规范 化 OX 
叫 雪花 化 ) ， 可 以 去 除 郊 余 属 性 ， 是 对 非 规范 化 维度 做 的 规范 化 处 
理 ， 在 下 面 介绍 雪花 模型 时 ， 会 看 到 维度 规范 化 的 例子 。 一 个 非 规范 
化 维度 对 应 一 个 维度 表 ， 规 范 化 后 ， 一 个 维度 会 对 应 多 个 维度 表 ， 维 
度 被 严格 地 以 子 维度 的 形式 连接 在 一 起 。 实 际 上 ， 在 很 多 情况 下 ， 维 
度 规 范 化 后 的 结构 等 同 于 一 个 低 范 式 级 别 的 关系 型 结构 。 


设计 维度 数据 模型 时 ， 会 因为 如 下 原因 而 不 对 维度 做 规范 化 处 
理 : 


。 规 沁 化 会 增加 表 的 数量 ， 使 结构 更 复杂 。 

。 不 可 避免 的 多 表 连 接 ， 使 查询 更 复杂 。 

不 适合 使 用 位 图 索引 。 

查询 性 能 原因 。 分 析 型 查询 需要 聚合 计算 或 检索 很 多 维度 值 ， 
此 时 第 三 沁 式 的 数据 库 会 遭遇 性 能 问题 。 如 果 需 要 的 仅仅 是 操 
作 型 报表 ， 可 以 使 用 第 三 范式 ， 因 为 操作 型 系统 的 用 户 需 要 看 
到 更 细节 的 数据 。 


正如 在 前 面 关 系 模型 中 提 到 的 ， 对 于 是 否 应 该 规范 化 的 问题 存在 
一 些 争 论 。 总 体 来 说 ， 当 多 个 维度 共用 某 些 通用 的 属性 时 ， 做 规范 化 
会 是 有 益 的 。 例 如 ， 客 户 和 供应 商都 有 省 、 市 、 区 县 、 街 道 等 地 理 位 
置 的 属性 ， 此 时 分 离 出 一 个 地 区 属性 就 比较 合适 。 


2.23 ”维度 数据 模型 的 特点 


(1) 易 理 解 。 相 对 于 规范 化 的 关系 模型 ， 维 度 模型 容易 理解 且 更 
直观 。 在 维度 模型 中 ， 信 息 按 业务 种 类 或 维度 进行 分 组 ， 这 会 提高 信 
息 的 可 读 性 ， 也 方便 了 对 于 数据 含义 的 解释 。 简 化 的 模型 也 让 系统 以 
更 为 高 效 的 方式 访问 数据 库 。 关 系 模型 中 ， 数 据 被 分 布 到 多 个 离散 的 


实体 中 ， 对 于 一 个 简单 的 业务 流程 ， 可 能 需要 很 多 表 联 合 在 一 起 才能 
表示 。 


(2) 高 性 能 。 维 度 模 型 更 倾向 于 非 规范 化 ， 因 为 这 样 可 以 优化 查 
询 的 性 能 。 介 绍 关 系 模型 时 多 次 提 到 ， 规 范 化 的 实质 是 减少 数据 宛 
余 ， 以 优化 事务 处 理 或 数据 更 新 的 性 能 。 这 里 用 一 个 具体 的 例子 进 一 
步 说 明 性 能 问题 。 如 图 2-2 所 示 ， 左 边 是 一 个 销售 订单 的 典型 的 规范 化 
表示 。 订 单 (Order) 实体 描述 有 关 订 单 整体 的 信息 ， 订 单 明 细 
(Order Line) 实体 描述 有 关 订 单项 的 信息 ， 两 个 实体 都 包含 描述 其 订 
单 状 态 的 信息 。 右 边 是 一 个 订单 状态 维 (Order Status Dimension) , 
该 维 描 述 订单 和 订单 明细 中 对 应 的 状态 编码 值 的 唯一 组 合 。 它 包括 在 
规范 化 设计 的 订单 和 订单 明细 实体 中 都 出 现 的 属性 。 当 销售 订单 事实 
行 被 装载 时 ， 参 照 在 订单 状态 维 中 的 适合 的 状态 编码 的 组 合 设 置 它 的 
外 键 。 


order identifier 
order line identifier 


order status identifier 
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图 2-2 ”销售 订单 规范 化 表 与 销售 订单 维度 表 


维度 设计 的 整体 观点 是 要 简化 和 加 速 查询 。 假 设 有 100 万 订单 ， 每 
个 订单 有 10 条 明细 ， 订 单 状态 和 订单 明细 状态 各 有 10 种 。 如 果 用 户 要 
查询 某 种 状态 特性 的 订单 ， 按 3NF 模 型 ， 人 逻辑 上 需要 关联 100 万 记录 与 
1000 万 记录 的 两 个 大 表 ， 然 后 过 滤 两 个 表 的 状态 值得 到 所 要 的 结果 。 
另 一 方面 ， 事 实 表 〈 图 中 并 没有 男 出 ) 按 最 细 数 据 粒 度 有 1000 万 记 


录 ，3NEF 里 的 订单 表 属 性 在 事实 表 里 是 元 余数 据 ， 状 态 维度 有 100 条 数 
据 ， 只 需要 关联 1000 万 记录 与 100 条 记录 的 两 个 表 ， 再 进行 状态 过 滤 即 
可 。 


(3) 可 扩展 。 维 度 模 型 是 可 扩展 的 。 由 于 维度 模型 允许 数据 郊 
余 ， 因 此 当 向 一 个 维度 表 或 事实 表 中 添加 字段 时 ， 不 会 像 关 系 模型 那 
样 产 生 巨 大 的 影响 ， 带 来 的 结果 就 是 更 容易 容纳 不 可 预料 的 新 增 数 
据 。 这 种 新 增 可 以 是 单纯 地 向 表 中 增加 新 的 数据 行 而 不 改变 表 结 构 ， 
也 可 以 是 在 现 有 表 上 增加 新 的 属性 。 基 于 数据 仓库 的 查询 和 应 用 不 需 
要 过 多 改变 就 能 适应 表 结 构 的 变化 ， 老 的 查询 和 应 用 会 继续 工作 而 不 
会 产生 错误 的 结果 。 但 是 对 于 规范 化 的 天 系 模型 ， 由 于 表 之 间 存 在 复 
杂 的 依赖 关系 ， 改 变 表 结 构 前 一 定 要 仔细 考虑 。 


2.2.4” 星 型 模式 


it 
开发 中 使 用 最 广泛 的 形式 。 星 型 模式 由 事实 表 和 维度 表 组 成 ， 
型 模式 中 可 以 有 一 个 或 多 个 事实 表 ， 每 个 事实 表 引 用 任意 anie 
表 。 星 型 模式 的 物理 模型 像 一 颗 星星 的 形状 ， 中 心 是 一 个 事实 表 ， 转 
绕 在 事实 表 周 围 的 维度 表 表 示 星 星 的 放射 状 分 支 ， 这 就 是 星 型 模式 这 
个 名 字 的 由 来 。 


星 型 模式 将 业务 流程 分 为 事实 和 维度 。 事 实 包 含 业务 的 度量 ， 是 

量 的 数据 ， 如 销售 价格 、 销 售 数量 、 距 离 、 速 度 、 重 量 等 是 事实 。 
维度 是 对 事实 数据 属性 的 描述 ， 如 日 期 、 产 品 、 客 户 、 地 理 位 置 等 是 
维度 。 一 个 含有 很 多 维度 表 的 星 型 模式 有 时 被 称 为 旺 紧 模式 ， 显 然 这 
个 名 字 也 是 因 其 形状 而 得 来 的 。 蚂 紧 模式 的 维度 表 往 往 只 有 很 少 的 几 
个 属性 ， 这 样 可 以 简化 对 维度 表 的 维护 ， 但 查询 数据 时 会 有 更 多 的 表 
连接 ， 严 重 时 会 使 模型 难于 使 用 ， 因 此 在 设计 中 应 该 尽量 避免 星 蛤 模 
To 


1. 事实 表 


事实 表 记 录 了 特定 事件 的 数字 化 的 考量 ， 一 般 由 数字 值 和 指向 维 
度 表 的 外 键 组 成 。 通 常会 把 事实 表 的 粒度 级 别 设计 得 比较 低 ， 使 得 事 
实 表 可 以 记录 很 原始 的 操作 型 事件 ， 但 这 样 做 的 负面 影响 是 累加 大 量 
记录 可 能 会 更 耗 时 。 事 实 表 有 以 下 三 种 类 型 : 


。 事务 事实 表 。 记 录 特 定 事件 的 事实 ， 如 销售 。 

。 快照 事实 表 。 记 录 给 定时 间 点 的 事实 ， 如 月 底 账 户 余 额 。 

e 累积 事实 表 。 记 录 给 定时 间 点 的 聚合 事实 ， 如 当月 的 总 的 销售 
金额 。 一 般 需要 给 事实 表 设 计 一 个 代理 键 作 为 每 行 记录 的 唯一 
标识 。 代 理 键 是 由 系统 生成 的 主键 ， 它 不 是 应 用 数据 ， 没 有 业 
务 含义 ， 对 用 户 来 说 是 透明 的 。 


2。 维度 表 


维度 表 的 记录 数 通常 比 事实 表 少 ， 但 每 条 记录 包含 有 大 量 用 于 描 
述 事 实数 据 的 属性 字段 。 维 度 表 可 以 定义 各 种 各 样 的 特性 ， 以 下 是 几 
种 最 长 用 的 维度 表 : 


。 时 间 维 度 表 。 描 述 星 型 模式 中 记录 的 事件 所 发 生 的 时 间 ， 具 有 
所 需 的 最 低级 别 的 时 间 粒 度 。 数 据 仓库 是 随时 间 变 化 的 数据 集 
合 ， 需 要 记录 数据 的 历史 ， 因 此 每 个 数据 仓库 都 需要 一 个 时 间 


维度 表 。 
。 地 理 维 度 表 。 描 述 位 置信 息 的 数据 ， 如 国家 、 省 份 、 城 市 、 区 
县 、 邮 编 等 。 


品 维度 表 。 描 述 产 品 及 其 属性 。 
人 员 维 度 表 。 描 述 人 员 相 关 的 信息 ， 如 销售 人 员 、 市 场 人 员 、 
开发 人 员 等 。 


。 范围 维度 表 。 描 述 分 段 数 据 的 信息 ， 如 高 级 、 中 级 、 低 级 等 。 

通常 给 维度 表 设 计 一 个 单列 、 整 型 数字 类 型 的 代理 键 ， 映 射 业 务 
数据 中 的 主键 。 业 务 系统 中 的 主键 本 身 可 能 是 自然 键 ， 也 可 能 是 代理 
键 。 自 然 键 指 的 是 由 现实 世界 中 已 经 存在 的 属性 组 成 的 键 ， 如 身份 证 
号 就 是 典型 的 自然 键 。 


3。 优 点 


星 型 模式 是 非 规范 化 的 ， 在 星 型 模式 的 设计 开发 过 程 中 ， 不 受 应 
用 于 事务 型 关系 数据 库 的 沁 式 规则 的 约束 。 星 型 模式 的 优点 如 下 : 


简化 查询 。 查 询 数 据 时 ， 星 型 模式 的 连接 逻辑 比较 简单 ， 而 从 
高 度 规 范 化 的 事务 模型 查询 数据 时 ， 往 往 需 要 更 多 的 表 连 接 。 
简化 业务 报表 人 逻辑。 与 高 度 规范 化 的 模式 相 比 ， 由 于 查询 更 简 
单 ， 因 此 星 型 模式 简化 了 普通 的 业务 报表 (如 每 月 报表 ) 2 
辑 。 

获得 查询 性 能 。 星 型 模式 可 以 提升 只 读 报表 类 应 用 的 性 能 。 
快速 聚合 。 基 于 星 型 模式 的 简单 查询 能 够 提高 聚合 操作 的 性 
能 。 

便于 向 立方 体 提供 数据 。 星 型 模式 被 广泛 用 于 高 效 地 建立 
OLAP 立 方 体 ， 几 乎 所 有 的 OLAP 系 统 都 提供 ROLAP 模 型 (关系 
型 OLAP) ， 它 可 以 直接 将 星 型 模式 中 的 数据 当 作 数 据 源 ， 而 
不 用 单独 建立 立方 体 结构 。 


4. 缺点 
星 型 模式 的 主要 缺点 是 不 能 保证 数据 完整 性 。 一 次 性 地 插入 或 更 


新 操作 可 能 会 造成 数据 异常 ， 而 这 种 情况 在 规 沁 化 模型 中 是 可 以 避免 
的 。 星 型 模式 的 数据 装载 ， 一 般 都 是 以 高 度 受 控 的 方式 ， 用 批 处 理 或 


准 实时 过 程 执行 的 ， 以 此 来 抵消 
数据 保护 方面 的 不 足 。 --— 


星 型 模式 的 另 一 个 缺点 是 对 
于 分 析 需 求 来 说 不 够 灵活 。 它 更 md -— 
偏重 于 为 特定 目的 建造 数据 视 UT | 
图 ， 因 此 实际 上 很 难 进 行 全 面 的 
数据 分 析 。 星 型 模式 不 能 自然 地 
支持 业务 实体 的 多 对 多 关系 , BR 
要 在 维度 表 和 事实 表 之 间 建 立 额 C477 | 
外 的 桥接 表 。 Quarter 


图 2-3” 星 型 模式 的 销售 数据 仓库 
5。 示 例 


假设 有 一 个 连锁 店 的 销售 数据 仓库 ， 记 录 销 售 相关 的 日 期 、 商 店 
和 产品 ， 其 星 型 模式 如 图 2-3 所 示 。 


Fact_Sales 是 唯一 的 事实 表 ，Dim_Date、Dim_Store 和 Dim_Product 
是 三 个 维度 表 。 每 个 维度 表 的 Id 字段 是 它们 的 主键 。 事 实 表 的 
Date Id, Store Id. Product Id 三 个 字段 构成 了 事实 表 的 联合 主键 ， 同 
时 这 个 三 个 字段 也 是 外 键 ， 分 别 引 用 对 应 的 三 个 维度 表 的 主键 。 
Units_Sold 是 事实 表 的 唯一 一 个 非 主键 列 ， 代 表 销 售 量 ， 是 用 于 计算 和 
分 析 的 度量 值 。 维 度 表 的 非 主键 列表 示 维 度 的 附加 属性 。 下 面 的 查询 
可 以 回答 2015 年 各 个 城市 的 手机 销量 是 多 少 。 


select s.city as city, sum(f.units sold) 
from fact sales f 
inner join dim date d on (f.date id - d.id) 
inner join dim store s on (f.store id - s.id) 
inner join dim product p on (f.product id - p.id) 
where d.year - 2015 and p.product category - 'mobile' 
group by s.city; 


2.2.5 “雪花 模式 


雪花 模式 是 一 种 多 维 模型 中 表 的 逻辑 布局 ， 其 实体 关系 图 有 类 似 
于 雪花 的 形状 ， 因 此 得 名 。 与 星 型 模式 相同 ， 雪 人 花 模式 也 是 由 事实 表 
和 维度 表 所 组 成 。 所 谓 的 “雪花 化 ”就 是 将 星 型 模式 中 的 维度 表 进 行规 
范 化 处 理 。 当 所 有 的 维度 表 完 成 规范 化 后 ， 就 形成 了 以 事实 表 为 中 心 
的 雪花 型 结构 ， 即 雪花 模式 。 将 维度 表 进 行规 范 化 的 具体 做 法 是 ， 把 
低 基数 的 属性 从 维度 表 中 移 除 并 形成 单独 的 表 。 基 数 指 的 是 一 个 字段 
中 不 同 值 的 个 数 ， 如 主键 列 具有 唯一 值 ， 所 以 有 最 高 的 基数 ， 而 像 性 
别 这 样 的 列 基数 就 很 低 。 


在 雪花 模式 中 ， 一 个 维度 被 规范 化 成 多 个 关联 的 表 ， 而 在 星 型 模 
式 中 ， 每 个 维度 由 一 个 单一 的 维度 表 所 表示 。 一 个 规范 化 的 维度 对 应 
一 组 具有 层次 关系 的 维度 表 ， 而 事实 表 作 为 雪花 模式 里 的 子 表 ， 存 在 
具有 层次 关系 的 多 个 父 表 。 


星 型 模式 和 雪花 模式 都 是 建立 维度 数据 仓库 或 数据 集 市 的 常用 方 
式 ， 适 用 于 加 快 查询 速度 比 高 效 维护 数据 的 重要 性 更 高 的 场景 。 这 些 
模式 中 的 表 没 有 特别 的 规 沁 化， 一 般 都 被 设计 成 一 个 低 于 第 三 沁 式 的 
级 别 。 


1. 数据 规范 化 与 存储 


规范 化 的 过 程 就 是 将 维度 表 中 重复 的 组 分 离 成 一 个 新 表 ， 以 减少 
数据 见 余 的 过 程 。 正 因为 如 此 ， 规 范 化 不 可 避免 地 增加 了 表 的 数量 。 
在 执行 查询 的 时 候 ， 不 得 不 连接 更 多 的 表 。 但 是 规范化 减少 了 存储 数 
据 的 空间 需求 ， 而 且 提 高 了 数据 更 新 的 效率 。 这 点 在 前 面 介绍 关系 模 
型 时 已 经 进行 了 详细 的 讨论 。 


从 存储 空间 的 角度 看 ， 典 型 的 情况 是 维度 表 比 事实 表 小 很 多 。 这 
就 使 得 雪花 化 的 维度 表 相对 于 星 型 模式 来 说 ， 在 存储 空间 上 的 优势 没 


那么 明显 了 。 举 例 来 说 ， 假 设 在 220 个 区 县 的 200 个 商场 ， 共 有 100 万 条 
销售 记录 。 星 型 模式 的 设计 会 产生 1,000,200 条 记录 ， 其 中 事实 表 
1,000,000 条 记录 ， 商 场 维度 表 有 200 条 记录 ， 每 个 区 县 信息 作为 商场 的 
一 个 属性 ， 显 式 地 出 现在 商场 维度 表 中 。 在 规范 化 的 雪花 模式 中 ， 会 
建立 一 个 区 县 维度 表 ， 该 表 有 220 条 记录 ， 商 场 表 引用 区 县 表 的 主键 ， 
有 200 条 记录 ， 事 实 表 没有 变化 ， 还 是 1,000,000 条 记录 ， 总 的 记录 数 是 
1,000,420 (1,000,000+200+220) 。 在 这 种 特殊 情况 〈 作 为 子 表 的 商场 
记录 数 少 于 作为 父 表 的 区 县 记录 数 ) 下 ， 星 型 模式 所 需 的 空间 反而 比 
雪花 模式 要 少 。 如 果 商 场 有 10,000 个 ， 情 况 就 不 一 样 了 ， 星 型 模式 的 
记录 数 是 1,010,000， 雪 花 模式 的 记录 数 是 1,010,220， 从 记录 数 上 看 ， 
还 是 雪花 模型 多 。 但 是 ， 星 型 模式 的 商场 表 中 会 有 10,000 个 宛 余 的 区 
县 属性 信息 ， 而 在 雪花 模式 中 ， 商 场 表 中 只 有 10,000 个 区 县 的 主键 ， 
而 需要 存储 的 区 县 属性 信息 只 有 220 个 ， 当 区 县 的 属性 很 多 时 ， 会 大 大 
减少 数据 存储 占用 的 空间 。 

有 些 数据 库 开 发 者 采取 一 种 折 中 的 方式 ， 底 层 使 用 雪花 模型 ， 上 
层 用 表 连 接 建 立 视图 模拟 星 型 模式 。 这 种 方法 既 通 过 对 维度 的 规范 化 
节省 了 存储 空间 ， 同 时 又 对 用 户 屏 蔽 了 查询 的 复杂 性 。 但 是 当 外 部 的 
查询 条 件 不 需要 连接 整个 维度 表 时 ， 这 种 方法 会 带 来 性 能 损失 。 


2。 优 点 

雪花 模式 是 和 星 型 模式 类 似 的 逻辑 模型 。 实 际 上 ， 星 型 模式 是 雪 
花 模式 的 一 个 特例 (维度 没有 多 个 层级 ) 。 某 些 条 件 下 ， 雪 花 模式 更 
具 优 势 : 


e 一些 OLAP 多 维 数据 库 建 模 工 具 专 为 雪花 模型 进行 了 优化 。 
。 规范 化 的 维度 属性 节省 存储 空间 。 


3. REA 


雪花 模型 的 主要 缺点 是 维度 属性 规范 化 增加 了 查询 的 连接 操作 和 
复杂 度 。 相 对 于 平面 化 的 单 表 维度 ， 多 表 连 接 的 查询 性 能 会 有 所 下 


降 。 但 雪花 模型 的 查询 性 能 问题 近年 来 随 着 数据 浏览 工具 的 不 断 优化 
而 得 到 缓解 。 


和 具有 更 高 规范 化 级 别 的 事务 型 模式 相 比 ， 雪 伦 模 式 并 不 确保 数 
据 完整 性 。 向 雪花 模式 的 表 中 装载 数据 时 ， 一 定 要 有 严格 的 控制 和 管 
理 ， 避 免 数 据 的 异 单 插入 或 更 新 。 


4。 示 例 
图 2-4 显 示 的 是 将 图 2-3 的 星 型 模式 规范 化 后 的 雪花 模式 。 日 期 维 


度 分 解 成 季度 、 月 、 周 、 日 期 四 个 表 。 产 品 维度 分 解 成 产品 分 类 、 产 
品 两 个 表 。 由 商场 维度 分 解 出 一 个 地 区 表 。 


Dim Day of Week Dim Product =e Dim_Product_Cat 
Day of Week Product Id 一 | Product Categ 
| Product Name 
Q | N Product Category Id 
A € Q T 
Dim_Month Dim_Date Fact ERI 
Id E < Id Date_Id 
Month_Name " 7" ~ Date Store ld 
-~ Der Product Id [>C 
<] Day of Week Id Units Sold 
Month Id - 
Quarter_Id 
5 ar 
Dim Quarter Dim Store Dim ( raphy 
Id Id PPO O-] Id 
Quarter Name "| Store Number Province 
Geography Id City 


图 2-4 ”雪花 模式 的 销售 数据 仓库 


下 面 所 示 的 查询 语句 的 结果 等 价 于 前 面 星 型 模式 的 查询 ， 可 以 阴 
显 看 到 此 查询 比 星 型 模式 的 查询 有 更 多 的 表 连 接 。 


select 


g.city,sum 


(f.units sold) 
from 


fact sales f 
inner join 


dim date d on 


f.date id - d.id 
inner join 


dim store s on 


f.store id - s.id 
inner join 


dim geography g on 


s.geography id - g.id 
inner join 


dim product p on 


f.product id - p.id 
inner join 


dim product category c on 


p.product category id - c.id 
where 


d.year 


2015 and 


c.product category - 'mobile' 
group by 


g.:city; 


2.3 Data Vault 模 型 


Data Vault 是 一 种 数据 仓库 建 模 方法 ， 用 来 存储 来 自 多 个 操作 型 系 
统 的 完整 的 历史 数据 。Data Vault 方 法 需要 跟踪 所 有 数据 的 来 产 ， 因 此 


其 中 每 个 数据 行 都 要 包含 数据 来 产 和 装载 时 间 属 性 ， 用 以 审计 和 跟踪 
数据 值 所 对 应 的 源 系统 。Data Vault 不 区 分 数据 在 业务 层面 的 正确 与 错 
误 ， 它 保留 操作 型 系统 的 所 有 时 间 的 所 有 数据 ， 装 载 数 据 时 不 做 数据 
验证 、 清 洗 等 工作 ， 这 点 明显 有 别 于 其 他 数据 仓库 建 模 方法 。Data 
Vault 建 模 方法 显 式 地 将 结构 信息 和 属性 信息 分 离 ， 能 够 还 原 业务 环境 
的 变化 。Data Vault 允 许 并 行 数据 装载 ， 不 需要 重新 设计 就 可 以 实现 扩 
展 。 


2.3.1 Data Vault 模型 简介 


Data Vault (DV) 模型 用 于 企业 级 的 数据 仓库 建 模 ， 是 Dan 
Linstedt 在 20 世 纪 90 年 代 提 出 的 。 在 最 近 几 年 ，Data Vault 模 型 获得 了 很 
多 天 注 。 

Dan Linstedt 将 Data Vault 模 型 定义 如 下 : 


Data Vault 是 面向 细节 的 ， 可 追踪 历史 的 ， 一 组 有 连接 关系 的 规范 
化 的 表 的 集合 。 这 些 表 可 以 支持 一 个 或 多 个 业务 功能 。 它 是 一 种 综合 
了 第 三 范式 (3NF) 和 星 型 模型 优点 的 建 模 方 法 。 其 设计 理念 是 要 满 
足 企业 对 灵活 性 、 可 扩展 性 、 一 致 性 和 对 需求 的 适应 性 要 求 ， 是 一 种 
专 为 企业 级 数据 仓库 量 身 定制 的 建 模 方式 。 


从 上 面 的 定义 可 以 看 出 ，Data Vault 既 是 一 种 数据 建 模 的 方法 论 ， 
又 是 构建 企业 数据 仓库 的 一 种 具体 方法 。Data Vault 建 模 方法 论 里 不 仪 
定义 了 Data Vault 的 组 成 部 分 和 组 成 部 分 之 间 的 交互 方式 ， 还 包括 了 最 
在 实践 来 指导 构建 企业 数据 仓库 。 例 如 ， 业 务 规则 应 该 在 数据 的 下 游 
实现 ， 就 是 说 Data Vault 只 按照 业务 数据 的 原样 保存 数据 ， 不 做 任何 解 
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(例如 同一 个 客户 有 不 同 的 地 址 ) , Data Vault 模 型 不 会 遵照 任何 业务 
的 规则 ， 如 “以 系统 A 的 地 址 为 准 ”。Data Vault 模 型 会 保存 两 个 不 同 版 


本 的 数据 ， 对 数据 的 解释 将 推迟 到 整个 架构 的 后 一 个 阶段 (数据 集 
市 ) 。 


2.3.2 Data Vault 模 型 的 组 成 部 分 


Data Vault 模 型 有 中 心 表 (Hub) 、 链 接 表 (Link) 、 附 属 表 
(Satellite) 三 个 主要 组 成 部 分 。 中 心 表 记录 业务 主键 ， 链 接 表 记录 业 
务 关 系 ， 附 属 表 记录 业务 摘 述 。 


1. 中 心 表 


中 心 表 用 来 保存 一 个 组 织 内 的 每 个 实体 的 业务 主键 ， 业 务 主 键 唯 
一 标识 某 个 业务 实体 。 中 心 表 和 源 系 统 表 是 相互 独立 的 。 当 一 个 业务 
主键 被 用 在 多 个 系统 时 ， 它 在 Data Vault 中 也 只 保留 一 份 ， 其 他 的 组 件 
都 链接 到 这 一 个 业务 主键 上 。 这 就 意味 着 业务 数据 都 集成 到 了 一 起 。 
表 2-13 列 出 了 中 心 表 应 该 包含 的 所 有 的 列 。 


表 2-13 ”中 心 表 的 属性 


主键 系统 生成 的 代理 键 ， 供 内 部 使 用 
业务 主键 唯一 标识 的 业务 单元 ， 用 于 已 知 业 务 的 源 系统 
装载 时 间 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 戳 


数据 来 源 定义 了 数据 来 源 〈 例 如 源 系统 或 表 ) 


2. 链接 表 


链接 表 是 中 心 表 之 间 的 链接 。 一 个 链接 表意 味 着 两 个 或 多 个 中 心 
表 之 间 有 关联 。 一 个 链接 表 通 常 是 一 个 外 键 ， 它 代表 着 一 种 业务 关 
系 。 表 2-14 列 出 了 链接 表 的 所 有 字段 。 


表 2-14 ”链接 表 的 属性 


属性 描述 

主键 系统 生成 的 代理 键 ， 供 内 部 使 用 

外 键 {1…N} 引用 中 心 表 的 代理 键 

装载 时 间 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 戳 
数据 来 源 定义 了 数据 来 源 〈 例 如 源 系统 或 表 ) 


在 Data Vault 里 ， 每 个 关系 都 以 多 对 多 方式 关联 ， 这 给 模型 带 来 了 
很 大 的 灵活 性 。 无 论 数 据 在 产 系 统 中 是 什么 关系 ， 都 可 以 保存 在 Data 
Vault 模 型 中 。 


3。 附 属 表 


附属 表 用 来 保存 中 心 表 和 链接 表 的 属性 ， 包 括 所 有 的 历史 变化 数 
据 。 一 个 附属 表 总 有 一 个 且 唯 一 一 个 外 键 引 用 到 中 心 表 或 链接 表 。 表 
2-15 列 出 了 附属 表 的 所 有 字段 。 


表 2-15 ”附属 表 的 属性 


属性 描述 

主键 系统 生成 的 代理 键 ， 供 内 部 使 用 

外 键 引用 中 心 表 或 链接 表 的 代理 键 

装载 时 间 数据 第 一 次 装载 到 数据 仓库 时 系统 生成 的 时 间 戳 
失效 时 间 数据 失效 时 的 时 间 岭 

数据 来 源 定义 了 数据 来 源 〈 例 如 源 系 统 或 表 ) 

属性 {1…N} 属性 自身 


在 Data Vault 模 型 的 标准 定义 里 ， 附 属 表 的 主键 应 该 是 附属 表 里 参 
照 到 中 心 表 或 链接 表 的 外 键 字段 和 装载 时 间 字 段 的 组 合 。 尽 管 这 个 定 
义 是 正确 的 ， 但 从 技术 角度 考虑 ， 我 们 最 好 还 是 增加 一 个 代理 键 。 使 
用 只 有 一 列 的 代理 键 更 易 维 护 。 另 外 ， 对 外 键 列 和 和 共 载 时 间 列 联合 建 
立 唯 一 索引 ， 也 是 一 个 好 习惯 。 


2.3.3 Data Vault 模 型 的 特点 


一 个 设计 良好 的 Data Vault 模 型 应 该 具有 以 下 特点 : 


。 所 有 数据 都 基于 时 间 来 存储 ， 即 使 数据 是 低 质量 的 ， 也 不 能 在 
ETL 过 程 中 人 处理 掉 。 
依赖 越 少 越 好 。 
和 源 系 统 越 独 立 越 好 。 
设计 上 适合 变化 。 
。 源 系统 中 数据 的 变化 。 
。 在 不 改变 模型 的 情况 下 可 扩展 。 


ETL 作 业 可 以 重复 执行 。 
数据 完全 可 追踪 。 
2.3.4 Data Vault 模 型 的 构建 


在 Data Vault 模 型 中 ， 各 个 实体 有 着 严格 、 通 用 的 定义 与 准确 、 灵 
活 的 功能 描述 ， 这 不 但 使 得 Data Vault 模 型 能 够 最 直观 、 最 一 般 地 反映 
数据 之 间 内 含 的 业务 规则 ， 同 时 也 为 构建 Data Vault 模 型 提供 了 一 致 而 
普遍 的 方法 。 


Data Vault 模 型 的 建立 可 以 遵循 如 下 步骤 : 
1. 设计 中 心 表 


首先 要 确定 企业 数据 仓库 要 涵盖 的 业务 范围 ; 其 次 要 将 业务 范围 
划分 为 若干 原子 业务 实体 ， 比 如 客户 、 产 品 等 ;然后 ， 从 各 个 业务 实 
体 中 抽象 出 能 够 唯一 标识 该 实体 的 业务 主键 ， 该 业务 主键 要 在 整个 业 
务 的 生命 周期 内 不 会 发 生变 化 ; 最 后 ， 由 该 业务 主键 生成 中 心 表 。 


2。 设 计 链 接 表 


链接 表 体 现 了 中 心 表 之 间 的 业务 关联 。 设 计 和 链接 表 ， 首 先 要 熟悉 
各 个 中 心 表 代表 的 业务 实体 之 间 的 业务 关系 ， 可 能 是 两 个 或 者 多 个 中 
心 表 之 间 的 关系 。 根 据 业 务 需求 ， 这 种 天 系 可 以 是 1 对 1、1 对 多 ， 或 者 
多 对 多 的 。 


然后 ， 从 相互 之 间 有 业务 关系 的 中 心 表 中 ， 提 取出 代表 各 自 业 务 
实体 的 中 心 表 主键 ， 这 些 主键 将 被 加 入 到 链接 表 中 ， 组 合 构成 该 链接 
表 的 主键 。 同 样 出 于 拉 术 的 原因 ， 需 要 增加 代理 键 。 


在 生成 链接 表 的 同时 ， 要 注意 如 果 中 心 表 之 间 有 业务 交易 数据 的 
话 ， 就 需要 在 链接 表 中 保存 交易 数据 ， 有 两 种 方法 ， 一 是 采用 加 权 链 
接 表 ， 二 是 给 链接 表 加 上 附属 表 来 处 理 交 易 数 据 。 


3. 设计 附属 表 


附属 表 包 含 了 各 个 业务 实体 与 业务 关联 的 详细 的 上 下 文 描述 信 
息 。 设 计 附 属 表 ， 首 先 要 收集 各 个 业务 实体 在 提取 业务 主键 后 的 其 他 
言 息 ， 比 如 客户 住址 、 产 品 价格 等 ， 由 于 同一 业务 实体 的 各 个 描述 信 
息 不 具有 稳定 性 ， 会 经 常 发 生变 化 ， 所 以 ， 在 必要 的 时 候 ， 需 要 将 变 
化 频率 不 同 的 信息 分 隔 开 来 ， 为 一 个 中 心 表 建立 几 个 附属 表 ， 人 然后 提 
取出 该 中 心 表 的 主键 ， 作 为 描述 该 中 心 表 的 附属 表 的 主键。 


当 业 务实 体 之 间 存 在 交易 数据 的 时 候 ， 需 要 为 没有 加 权 的 链接 表 
设计 附属 表 ， 也 可 以 根据 交易 数据 的 不 同 变 化 情况 设计 多 个 附属 表 。 
4. 设计 必要 的 PIT 表 


Point 一 Im 一 Time 表 是 由 附属 表 派 生 而 来 的 。 如 果 一 个 中 心 表 或 者 
链接 表 设 计 有 多 个 附属 表 的 话 ， 而 为 了 访问 数据 方便 ， 就 有 用 到 PIT 表 
的 可 能 。 


PIT 表 的 主键 也 是 由 其 所 归属 的 中 心 表 提 取 而 来 ， 该 中 心 表 有 几 个 
附属 表 ，PIT 表 就 至 少 应 该 有 几 个 字段 来 存放 各 个 附属 表 的 变化 对 比 时 
间 。 

建立 Data Vault 模 型 时 应 该 参照 如 下 的 原则 : 


(1) 关于 中 心 表 的 原则 


中 心 表 的 主键 不 能 够 直接 “ 伸 入 ”到 其 他 中 心 表 里 面 。 就 是 说 ， 
不 存在 父子 关系 的 中 心 表 。 各 个 中 心 表 之 间 的 关系 是 平等 的 ， 
这 也 正 是 Data Vault 模 型 灵活 性 与 扩展 性 之 所 在 。 

中 心 表 之 间 必 须 通 过 链接 表 相关 联 ， 通 过 链接 表 可 以 连接 两 个 
以 上 的 中 心 表 。 

必须 至 少 有 两 个 中 心 表 才能 产生 一 个 有 意义 的 链接 表 。 

中 心 表 的 主键 总 是 “ 伸 出 去 ”的 (到 链接 表 或 者 附属 表 ) o 


(2) 关于 链接 表 的 原则 


e 链接 表 可 以 跟 其 他 链接 表 相 连 。 

。 中 心 表 和 链接 表 都 可 以 使 用 代理 键 。 

。 业务 主键 从 来 不 会 改变 ， 就 是 说 中 心 表 的 主键 也 即 链接 表 的 外 
键 不 会 改变 。 


(3) 关于 附属 表 的 原则 


。 附属 表 必 须 是 连接 到 中 心 表 或 者 链接 表 上 才 会 有 确定 的 含义 。 

。 附属 表 总 是 包含 装载 时 间 和 失效 时 间 ， 从 而 包含 历史 数据 ， 并 
且 疫 有 重复 的 数据 。 

。 由 于 数据 信息 的 类 型 或 者 变化 频率 快慢 的 差别 ， 描 述 信息 的 数 
据 可 能 会 被 分 隔 到 多 个 附属 表 中 去 。 


2.3.5 Data Vault 模 型 实例 


下 面 用 一 个 销售 订单 的 例子 说 明 如 何 将 关系 模型 转换 为 Data Vault 
模型 ， 以 及 如 何 向 转换 后 的 Data Vault 模 型 装载 数据 。 关 系 模型 如 图 2- 
5 所 示 ， 共 有 省 、 市 、 客 户 、 产 品类 型 、 产 品 、 订 单 、 订 单 明 细 7 个 
Ro 
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图 2-5 ”销售 订单 关系 模型 


1. 将 关系 模型 转换 为 Data Vault 模 型 
首先 按照 下 面 的 步骤 转换 中 心 表 。 


(1) 确定 中 心 实 体 。 示 例 中 的 客户 、 产 品类 型 、 产 品 、 订 单 、 订 
单 明 细 这 5 个 实体 是 订单 销售 业务 的 中 心 实 体 。 省 、 市 等 地 理 信 息 表 是 
参考 数据 ， 不 能 算是 中 心 实体 ， 实 际 上 是 附属 表 。 

(2) 把 第 一 步 确 定 的 中 心 实体 中 有 入 边 的 实体 转换 为 中 心 表 ， 因 
为 这 些 实 体 被 别 的 实体 引用 。 把 客户 、 产 品类 型 、 产 品 、 订 单 转换 成 
中 心 表 。 

(3) 把 第 一 步 确定 的 中 心 实体 中 没有 入 边 且 只 有 一 条 出 边 的 实体 
转换 为 中 心 表 。 该 示例 中 没有 这 样 的 表 。 

如 表 2-16 所 示 列 出 了 所 有 中 心 表 。 


表 2-16 销售 订单 中 心 表 


hub product catagory product catagory id 
hub customer customer id 


hub product product id 


hub sales order sales order id 


每 个 中 心 表 只 有 代理 键 、 业 务 主键 、 装 载 时 间 、 数 据 来 源 四 个 字 
段 。 在 这 个 示例 中 ， 业 务 主键 就 是 关系 模型 中 表 的 主键 字段 。 


然后 按照 下 面 的 步骤 转换 链接 表 。 
(1) 把 示例 中 没有 入 边 且 有 两 条 或 两 条 以 上 出 边 的 实体 直接 转换 
成 链接 表 。 人 符合 条 件 的 是 订单 明细 表 。 


(2) 把 示例 中 除 第 一 步 以 外 的 外 键 天 系 转换 成 链接 表 。 订 单 和 客 
户 之 间 建 立 链 接 表 ， 产 品 和 产品 类 型 之 间 建 立 链 接 表 。 注 意 Data Vault 
模型 中 的 每 个 关系 都 是 多 对 多 关系 。 


如 表 2-17 所 示 列 出 了 所 有 链接 表 。 


表 2-17 销售 订单 链接 表 


链接 表 被 链接 的 中 心 表 | 
link order product hub sales order, hub product 


link order customer hub sales order, hub customer 


link product catagory hub product, hub product catagory 


链接 表 中 包含 有 代理 键 、 关 联 的 中 心 表 的 一 个 或 多 个 主键 、 装 载 
时 间 、 数 据 来 源 等 字段 。 


最 后 转换 附属 表 。 附 属 表 为 中 心 表 和 链接 表 补 充 属 性 。 所 有 产 库 
中 用 到 的 表 的 非 键 属性 都 要 放 到 Data Vault 模 型 的 附属 表 中 。 


如 表 2-18 所 示 列 出 了 所 有 附属 表 。 


表 2-18 ”销售 订单 附属 表 


附属 表 所 描述 的 表 
sat customer hub customer 
sat product catagory hub product catagory 


sat product hub product 


sat sales order hub sales order 


link. order produc 


附属 表 中 包含 有 代理 键 、 关 联 的 中 心 表 或 链接 表 的 主键 、 装 载 时 
间 、 失 效 时 间 、 数 据 来 源 、 关 联 的 中 心 表 或 链接 表 所 对 应 的 关系 模型 
表 中 的 一 个 或 多 个 非 主键 属性 等 字段 。 


转换 后 的 Data Vault 模 型 如 图 2-6 所 示 。 


2. [Data Vault 模 型 的 表 中 装载 数据 


现在 Data Vault 模 型 的 中 心 表 、 链 接 表 、 附 属 表 都 已 经 建立 好 ， 需 
要 向 其 中 装载 数据 ， 数 据 的 来 产 是 关系 模型 中 的 表 。 假 设 Data Vault 的 
表 使 用 MySQL 数 据 库 建 立 ， 代 理 键 使 用 自 增 列 ， 装 载 时 间 使 用 时 间 稚 
数据 类 型 ， 在 插入 数据 时 ， 这 两 列 不 用 显 式 赋值 ， 数 据 会 自动 维护 。 
数据 来 源 字 段 简单 处 理 ， 就 填写 与 之 相关 的 表 名 。 附 属 表 的 失效 时 间 
字段 ， 初 始 值 填写 一 个 很 大 的 默认 时 间 ， 这 里 插入 ‘2200-01-01’。 

使 用 以 下 的 SQL 代 码 装 载 hub_product 中 心 表 、l]ink_order_product 


链接 表 、 sat_order_product 附 属 表 ， 其 他 表 的 装载 语句 类 似 ， 这 里 从 
略 。 


-- 装载 hub_product 中 心 表 
Insert Into 


hub product (product id,record source) 
select 


product id,'product' from 


product; 


-- 装载 1ijnk_order_product 链 接 表 
insert into 


link order product( 
hub sales order id, 
hub. product id, 
record source) 
select 


hub sales order id, 
hub product id, 


'hub sales order,hub product,sales order item' 
from 


hub sales order t1, 
hub product t2, 
sales order item t3 
where 


ti1.sales order id = t3.sales order id 
and 


t2.product id - t3.product id; 


-- 装载 sat_order_product 附 属 表 
insert into 


sat order product ( 
link order product id, 
load end dts, 
record source, 
unit price, 
quantity) 
select 


link order product id, 
'2200-01-01', 
'link order product,hub sales order,hub product,sales order i 
tem', 
t4.unit price, 
t4.quantity 
from 


link order product t1, 
hub sales order t2, 
hub product t3, 
sales order item t4 
where 


ti.hub sales order id = t2.hub sales order id 
and 


ti.hub product id = t3.hub product id 
and 


t4.sales order id = t2.sales order id 
and 


t4.product id - t3.product id; 


2.4 ”数据 集 市 


在 第 1 章 中 介绍 了 独立 数据 集 市 和 从 属 数据 集 市 两 种 架构 ， 本 节 继 
续 讨 论 数据 集 市 的 概念 、 与 数据 仓库 的 区 别 、 数 据 集 市 的 设计 等 问 


题 。 


2.4.1 ”数据 集 市 的 概念 


数据 集 市 是 数据 仓库 的 一 种 简单 形式 ， 通 常 由 组 织 内 的 业务 部 门 
目 己 建立 和 控制 。 一 个 数据 集 市 面向 单 一 主题 域 ， 如 销售 、 财 务 、 市 
场 等 。 数 据 集 市 的 数据 源 可 以 是 操作 型 系统 (独立 数据 集 市 ) ， 也 可 
以 是 企业 级 数据 仓库 《从 属 数据 集 市 ) o 


2.4.2 ”数据 集 市 与 数据 仓库 的 区 别 


不 同 于 数据 集 市 ， 数 据 仓库 处 理 整个 组 织 范 围 内 的 多 个 主题 域 ， 
通常 是 由 组 织 内 的 核心 单位 ， 如 IT 部 门 承 建 ， 所 以 经 常 被 称 为 中 心 数 
据 仓 库 或 企业 数据 仓库 。 数 据 仓库 需要 集成 很 多 操作 型 产 系统 中 的 数 
据 。 由 于 数据 集 市 的 复杂 度 和 需要 处 理 的 数据 都 小 于 数据 仓库 ， 因 此 
更 容易 建立 与 维护 。 表 2-19 总 结 了 数据 仓库 与 数据 集 市 的 主要 区 别 。 


表 2-19 ”数据 仓库 与 数据 集 市 的 主要 区 别 


对 比 项 z 数据 集 市 

范围 tebe 部 门 级 或 业务 线 

多 个 主题 单一 主题 

数据 源 遗留 系统 、 事 务 系统 、 外 部 数据 的 多 个 数据 源 | 数据 仓库 或 事务 系统 的 少量 数据 源 
数据 粒度 较 细 的 粒度 较 粗 的 粒度 

数据 结构 通常 是 规范 化 结构 (SNF) 星 型 模型 、 雪 花 模型 、 或 两 者 混合 
历史 数据 全 部 历史 数据 部 分 历史 数据 

完成 需要 的 时 | 几 个 月 到 几 年 JILA 


间 


2.4.3 ”数据 集 市 设计 


效 据 集 市 主要 用 于 部 门 级 别 的 分 析 型 应 用 ， 数 据 大 都 是 经 过 了 汇 
总 和 聚合 操作 ， 粒 度 级 别 较 高 。 数 据 集 市 一 般 采 用 维度 模型 设计 方 
法 ， 数 据 结构 使 用 星 型 模式 或 雪花 模式 。 


正如 前 面 所 介绍 的 ， 设 计 维度 模型 先 要 确定 维度 表 、 事 实 表 和 数 
据 粒 度 级 别 ， 下 一 步 是 使 用 主 外 键 定 义 事实 表 和 维度 表 之 间 的 关系 。 
数据 集 市 中 的 主键 最 好 使 用 系统 生成 的 自 增 的 单列 数字 型 代理 键 。 模 
型 建立 好 之 后 ， 设 计 ETL 步 骤 抽取 操作 型 源 系统 的 数据 ， 经 过 数据 清 
洗 和 转换 ， 最 终 装 载 进 数据 集 市 中 的 维度 表 和 事实 表 中 。 


25 ”数据 仓库 实施 步骤 


实施 一 个 数据 仓库 项 目的 主要 步骤 是 : 定义 项 目 范 围 、 收 集 并 确 
认 业 务 需 求 和 技术 需求 、 逻 辑 设计 、 物 理 设计 、 从 源 系 统 向 数据 仓库 
委 载 效 据 、 使 数据 可 以 被 访 问 以 辅助 决策 、 管 理 和 维护 数据 仓库 。 


1. 定义 范围 


在 实施 数据 仓库 前 ， 需 要 制定 一 个 开发 计划 。 这 个 计划 的 关键 输 
入 是 信息 需求 和 数据 仓库 用 户 的 优先 级 。 当 这 些 信息 被 定义 和 核准 
后 ， 就 可 以 制作 一 个 交付 物 列表 ， 并 给 数据 仓库 开发 团队 分 配 相 应 的 
任务 。 


首要 任务 是 定义 项 目的 范围 。 项 目 范围 定义 了 一 个 数据 仓库 项 目 
的 边界 。 上 典型 的 范围 定义 是 组 织 、 地 区 、 应 用 、 业 务 功能 的 联合 表 
示 。 定 义 范围 时 通常 需要 权衡 考虑 资源 (An, RS. MES) 、 进 
E (项 目的 时 间 和 里 程 碑 要 求 ) 、 功 能 (数据 仓库 承诺 达到 的 能 力 ) 
三 方面 的 因素 。 定 义 好 清晰 明确 的 范围 ， 并 得 到 所 有 项 目 干 系 人 的 一 
致 认 可 ， 对 项 目的 成 功 是 非常 重要 的 。 项 目 范 围 是 设 定 正确 的 期 望 
值 、 评 估 成 本 、 估 计 风 险 、 制 定 开发 优先 级 的 依据 。 


2。 确 定 需求 
数据 仓库 项 目的 需求 可 以 分 为 业务 需求 和 技术 需求 。 
(1) 定义 业务 需 : 


建立 数据 仓库 的 主要 目的 是 为 组 织 赋予 从 全 局 访问 数据 的 能 力 。 
数据 的 细节 程度 必须 能 够 满足 用 户 执 行 分 析 的 需求 ， 并 且 数 据 应 该 被 
表示 为 用 户 能 够 理解 的 业务 术语 。 对 数据 仓库 中 数据 的 分 析 将 辅助 业 
务 决策 ， 因 此 ， 作 为 数据 仓库 的 设计 者 ， 应 该 清楚 业务 用 户 是 如 何 做 
决策 的 ， 在 决策 过 程 中 提出 了 哪些 问题 ， 以 及 哪些 数据 是 回答 这 些 问 


题 所 需要 的 。 与 业务 人 员 进 行 面 对 面 的 沟通 ， 是 理解 业务 流程 的 好 方 
陈 。 沟 通 的 结果 是 使 效 据 仓 库 的 业务 需求 更 加 明确 。 在 为 数据 仓库 收 
集 需 求 的 过 程 中 ， 还 要 考虑 设计 要 能 适应 需求 的 变化 。 


(2) 定义 技术 需求 


数据 仓库 的 数据 来 源 是 操作 型 系统 ， 这 些 系统 日 复 一 日 地 处 理 着 
各 种 事务 活动 。 操 作 型 系统 大 都 是 联机 事务 处 理 系统 。 数 据 仓库 会 从 
多 个 操作 型 关系 统 抽取 数据 。 但 是 ， 一 般 不 能 将 操作 型 系统 里 的 数据 
直接 迁移 到 数据 仓库 ， 而 是 需要 一 个 中 间 处 理 过 程 ， 这 就 是 所 谓 的 
ETL 过 程 。 需 要 知道 如 何 清理 操作 型 数据 ， 如 何 移 除 垃圾 数据 ， 如 何 
将 来 目 多 个 源 系统 的 相同 效 据 整合 在 一 起 。 另 外 ， 还 要 确认 数据 的 更 
新 频率 。 例 如 ， 如 果 需 要 进行 长 期 的 或 大 范围 的 数据 分 析 ， 可 能 就 不 
需要 每 天 装载 数据 ， 而 是 每 周 或 每 月 装载 一 次 。 注 意 ， 更 新 频率 并 不 
决定 数据 的 细节 程度 ， 每 周 汇总 的 数据 有 可 能 每 月 装载 (当然 这 种 把 
数据 转换 和 数据 装载 分 开 调度 的 做 法 并 不 单 见 ) 。 在 数据 仓库 设计 的 
初始 阶段 ， 需 要 确定 数据 源 有 哪些 、 数 据 需 要 做 哪些 转换 以 及 数据 的 
更 新 频率 是 什么 。 


3. 逻辑 设计 

定义 了 项 目的 范围 和 需求 ， 就 有 了 一 个 基本 的 概念 设计 。 下 面 就 
要 进入 数据 仓库 的 逻辑 设计 阶段 。 逻 辑 设计 过 程 中 ， 需 要 定义 特定 数 
据 的 具体 内 容 ， 数 据 之 间 的 关系 ， 支 持 数 据 仓库 的 系统 环境 等 ， 本 质 
是 发 现 逻 辑 对 象 之 间 的 关系 。 


(1) 建立 需要 的 数据 列表 


细 化 业务 用 户 的 需求 以 形成 数据 元 素 列表 。 很 多 情况 下 ， 为 了 得 
到 所 需 的 全 部 数据 ， 需 要 适当 扩展 用 户 需求 或 者 预测 未 来 的 需要 ， 一 
般 从 主题 域 涉及 的 业务 因素 入 手 。 例 如 ， 销 售 主题 域 的 业务 因素 可 能 
是 客户 、 地 区 、 产 品 、 促 销 等 。 然 后 建立 每 个 业务 因素 的 元 素 列 表 ， 
依据 也 是 用 户 提 出 的 需求 。 最 后 通过 元 素 列 表 ， 标 识 出 业务 因素 之 间 
的 联系 。 这 些 工作 完成 后 ， 应 该 已 经 获得 了 如 下 的 信息 : 原始 的 或 计 
算 后 的 数据 元 素 列 表 ; 数据 的 属性 ， 比 如 是 字符 型 的 还 是 数字 型 的 ; 
合理 的 数据 分 组 ， 比 如 国家 、 省 市 、 区 县 等 分 成 一 组 ， 因 为 它们 都 是 
地 区 元 素 ; 数据 之 间 的 关系 ， 比 如 国家 、 省 市 、 区 县 的 包含 关系 等 。 


(2) 识别 数据 源 


现在 已 经 有 了 需要 的 数据 列表 ， 下 面 的 问题 是 从 哪里 可 以 得 到 这 
些 数 据 ， 以 及 要 得 到 这 些 数据 需要 多 大 的 成 本 。 需 要 把 上 一 步 建立 的 
数据 列表 映射 到 操作 型 系统 上 。 应 该 从 最 大 最 复杂 的 源 系统 开始 ， 在 
必要 时 再 查找 其 他 源 系统 。 数 据 的 映射 关系 可 能 是 直接 的 或 间接 的 ， 
比如 销售 产 系 统 中 ， 商 品 的 单价 和 折扣 价 可 以 直接 获得 ， 而 折扣 百 分 
比 就 需要 计算 得 到 。 通 党 维度 模型 中 的 维度 表 可 以 直接 映射 到 操作 型 
源 系统 ， 而 事实 表 的 度量 则 映射 到 源 数 据 在 特定 粒度 级 别 上 聚合 计算 
后 的 结果 。 某 些 数据 的 获得 需要 较 高 的 成 本 ， 例 如， 用户 想 要 得 到 促 
销 相关 的 销售 数据 就 不 那么 容易 ， 因 为 促销 期 的 定义 从 时 间 角 度 看 是 
不 连续 的 。 


(3) 制作 实体 关系 图 


逻辑 设计 的 交付 物 是 实体 关系 图 (entity-relationship diagram， 简 
称 ERD) 和 对 它 的 说 明文 档 (数据 字典 ) 。 实 体 对 应 关系 数据 库 中 的 
表 ， 属 性 对 应 关系 数据 库 中 的 列 。ERD 传 统 上 与 高 度 规范 化 的 关系 模 
型 联系 密切 ， 但 该 技术 在 维度 模型 中 也 被 广泛 使 用 。 在 维度 模型 的 


ERD 中 ， 实 体 由 事实 表 和 维度 表 组 成 ， 关 系 体 现 为 在 事实 表 中 引用 维 
度 表 的 主键 。 因 此 先 要 确认 哪些 信息 属于 中 心事 实 表 ， 哪 些 信息 属于 
相关 的 维度 表 。 维 度 模 型 中 表 的 规范 化 级 别 通常 低 于 关系 模型 中 的 
表 。 


4. 物理 设计 


物理 设计 指 的 是 将 逻辑 设计 的 对 象 集 合 ， 转 化 为 一 个 物理 效 掘 
库 ， 包 括 所 有 的 表 、 索 引 、 约 束 、 视 图 等 。 物 理 数 据 库 结构 需要 优化 
以 获得 最 佳 的 性 能 。 每 种 数据 库 产品 都 有 自己 特别 的 优化 方法 ， 这 些 
优化 对 查询 性 能 有 极 大 的 影响 。 比 较 通用 的 数据 仓库 优化 方法 有 位 图 
索引 和 表 分 区 。 


第 1 章 中 的 “分 析 型 系统 的 数据 库 设计 ”已 经 提 到 过 位 图 索引 和 表 分 
区 。 位 图 索引 对 索引 列 的 每 个 不 同 值 建立 一 个 位 图 。 和 普通 的 B 树 索 
BA E, 位 图 索引 占用 的 空间 小 ， 创 建 速度 快 。 但 由 于 并 发 的 DML 操 
作 会 锁定 整个 位 图 段 的 大 量 数据 行 ， 所 以 位 图 索引 不 适用 于 频繁 更 新 
的 事务 处 理 系统 。 而 数据 仓库 对 最 终 用 户 来 说 是 一 个 只 读 系 统 ， 其 中 
某 些 维度 的 值 基数 很 小 ， 这 样 的 场景 非常 适合 利用 位 图 索引 优化 查 
询 。 遗 憾 的 是 有 些 数 据 库 管理 系统 如 MySQL ， 还 没有 位 图 索引 功能 。 


大 部 分 数据 库 系 统 都 可 以 对 表 进 行 分 区 。 表 分 区 是 将 一 个 大 表 按 
照 一 定 的 规则 分 解 成 多 个 分 区 ， 每 个 表 分 区 可 以 定义 独立 的 物理 存储 
参数 。 将 不 同 分 区 存储 到 不 同 的 磁盘 上 ， 查 询 表 中 数据 时 可 以 有 效 分 
布 /O 操 作 ， 组 解 系统 压力 。 分 区 还 有 一 个 很 有 用 的 特性 ， 叫 做 分 区 消 
除 。 查 询 数 据 的 时 候 ， 数 据 库 系 统 的 优化 器 可 以 通过 适当 的 查询 条 件 
过 滤 掉 一 些 分 区 ， 从 而 避免 扫描 所 有 数据 ， 提 高 查询 效率 ， 这 就 是 分 
区 消除 。 


除了 性 能 优化 ， 数 据 仓库 系统 的 可 扩展 性 也 非常 重要 。 简 单 地 
说 ， 可 扩展 性 就 是 能 够 处 理 更 大 规模 业务 的 特性 。 从 技术 上 讲 ， 可 扩 


展 性 是 一 种 通过 增加 资源 ， 使 服务 能 力 得 到 线性 扩展 的 能 力 。 比 方 
说 ， 一 台 服 务 器 在 满 负荷 时 可 以 为 一 万 个 用 户 同时 提供 服务 ， 当 用 户 
数 增加 到 两 万 时 ， 只 需要 再 增加 一 台 服 务 器 ， 就 能 提供 相同 性 能 的 服 
务 。 成 功 的 数据 仓库 会 吸引 越 来 越 多 的 用 户 访问 。 随 着 时 间 的 推移 ， 
数据 量 会 越 来 越 大 ， 因 此 在 做 数据 仓库 物理 设计 时 ， 出 于 可 扩展 性 的 
考虑 ， 应 该 把 对 硬件、 软件 、 网 络 带宽 的 依赖 降 到 最 低 。 第 3 章 会 详细 
讨论 数据 仓库 在 Hadoop 上 的 扩展 性 问题 。 


5. SEE 


这 个 步骤 实际 上 涉及 整个 ETL 过 程 。 需 要 执行 的 任务 包括 : 源 和 
目标 结构 之 间 建 立 映 射 关 系 ; 从 产 系 统 抽取 数据 ; 对 数据 进行 清 疙 和 
转换 ; TER SUSE CE; 创建 并 存储 元 效 气 。 


6. 访问 数据 


访问 步骤 是 要 使 数据 仓库 的 数据 可 以 被 使 用 ， 使 用 的 方式 包括 : 
数据 查询 、 数 据 分 析 、 建 立 报表 图 表 、 数 据 发 布 等 。 根 据 采 用 的 数据 
仓库 架构 ， 可 能 会 引入 数据 集 市 的 创建 。 通 常 ， 最 终 用 户 会 使 用 图 形 
化 的 前 端 工 具 向 数据 库 提交 查询 ， 并 显示 查询 结果 。 访 问 步骤 需要 执 
行 以 下 任务 : 


。 为 前 端 工具 建立 一 个 中 间 层 。 在 这 个 中 间 层 里 ， 把 数据 库 结 构 
和 对 象 名 转化 成 业务 术语 ， 这 样 最 终 用 户 就 可 以 使 用 与 特定 功 
能 相关 的 业务 语言 同 数据 仓库 交互 。 

管理 和 维护 这 个 业务 接口 。 

建立 和 管理 数据 仓库 里 的 中 间 表 和 汇总 表 。 建 立 这 些 表 完 全 是 
出 于 性 能 原因 。 中 间 表 一 般 是 在 原始 表 上 添加 过 滤 条 件 获 得 的 
数据 集合 ， 汇 总 表 则 是 对 原始 表 进 行 聚合 操作 后 的 数据 集合 。 


这 些 表 中 的 记录 数 会 远 远 小 于 原始 表 ， 因 此 前 端 工具 在 这 些 表 
上 的 查询 会 执行 得 更 快 。 


7. 管理 维护 


这 个 步骤 涵盖 在 数据 仓库 整个 生命 周期 里 的 管理 和 维护 工作 。 这 
化 系统 以 获得 更 好 的 性 能 、 保 证 系统 的 可 用 性 和 可 恢复 性 等 。 


2.6 ”小结 


(1) 关系 模型 、 多 维 模型 和 Data Vault 模 型 是 三 种 常见 的 数据 仓 
库 模 型 。 

(2) 数据 结构 、 完 整 性 约束 和 SQL 语言 是 关系 模型 的 三 个 要 素 。 

(3) 规范 化 是 通过 应 用 范式 规则 实现 的 。 第 一 范式 (1NF) 要 求 


保持 数据 的 原子 性 、 第 二 范式 (2NF) 消除 了 部 分 依赖 、 第 三 范式 
(SNF) 消除 了 传递 依赖 。 关 系 模型 的 数据 仓库 一 般 要 求 满 足 3NF。 


(4) 事实 、 维 度 、 粒 度 是 维度 模型 的 三 个 核心 概念 。 


(5) 维度 模型 的 四 步 设计 法 是 选择 业务 流程 、 声 明 粒 度 、 确 定 维 
度 、 确 定 事实 。 


(6) 星 型 模式 和 雪花 模式 是 维度 模型 的 两 种 逻辑 表示 。 对 星 型 模 
式 进一步 规 沁 化 ， 束 形成 了 雪花 模式 。 


(7) Data Vault 模 型 有 中 心 表 (Hub) 、 链 接 表 (Link) 、 附 属 表 
(Satellite) 三 个 主要 组 成 部 分 。 中 心 表 记录 业务 主键 ， 链 接 表 记录 业 
BRA, 附属 表 记 录 业 务 描述 。 


(8) Data Vault 不 区 分 数据 在 业务 层面 的 正确 与 错误 ， 它 保留 操 
作 型 系统 的 所 有 时 间 的 所 有 数据 ， 装 载 数 据 时 不 做 数据 验证 、 清 洗 等 
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(9) 数据 集 市 是 部 门 级 的 、 面 向 单一 主题 域 的 数据 仓库 。 

(10) 数据 集 市 的 复杂 度 和 需要 处 理 的 数据 都 小 于 数据 仓库 ， 
此 更 容易 建立 与 维护 。 

(11) 实施 一 个 数据 仓库 项 目的 主要 步骤 是 : 定义 范围 、 确 认 需 
求 、 逻 辑 设 计 、 物 理 设计 、 凌 载 数 据 、 访 问 数据 、 管 理 维 护 。 


第 3 章 
<Hadoop 生 态 圈 与 数据 仓库 > 


本 章 介 绍 Hadoop 及 其 生态 圈 中 的 组 件 ， 并 讨论 基于 Hadoop 构 建 数 
据 仓 库 的 必要 性 和 可 行 性 。 随 着 云 计算 、 大 数据 等 名 词 的 流行 ， 涌 现 
出 一 大 批 相 关 的 技术 ， 其 中 Hadoop 是 较 早出 现 的 一 种 分 布 式 架 构 ， 得 
到 了 大 量 的 应 用 。 本 章 先 说 明 大 数据 和 Hadoop 的 基本 概念 ， 之 后 介绍 
HDFS、MapReduce、YARN 三 个 基本 的 Hadoop 组 件 。 除 了 基本 组 成 部 
分 ，Hadoop 生 态 圈 中 还 有 很 多 其 他 的 工具 组 件 ， 它 们 可 以 提供 创建 数 
据 仓 库 所 需 的 大 部 分 功能 ， 后 面 章 节 将 会 陆续 讲述 这 些 组 件 的 概念 和 
功能 。 本 章 主 要 介绍 Spark 分 布 式 计算 框架 。 在 本 章 最 后 ， 讨 论 数 据 仓 
库 与 分 布 式 计算 的 关系 ， 以 及 与 传统 数据 仓库 架构 所 对 应 的 Hadoop 工 
具 。 


望 读 者 通过 阅读 本 章 的 内 容 ， 对 大 数据 、 分 布 式 计算 、Hadoop 
及 其 生态 圈 的 概念 有 一 个 基本 的 认识 ， 最 重要 的 是 理解 为 什么 要 使 用 
Hadoop 建 立 数据 仓库 。 


3.1 大 数据 定义 


虽然 数据 仓库 技术 自 诞 生 之 日 起 的 二 十 多 年 里 一 直 被 用 来 处 理 大 
数据 ， 但 “大 数据 ”这 个 名 词 却 是 近年 来 随 着 以 Hadoop 为 代表 的 一 系列 
分 布 式 计算 框架 的 产生 发 展 才 流行 起 来 。 

所 谓 大 数据 是 这 样 一 个 数据 集合 ， 它 的 数据 量 和 复杂 度 是 传统 的 
数据 处 理应 用 无 法 应 对 的 。 大 数据 之 来 的 挑战 包括 数据 分 析 、 数 据 捕 
获 、 数 据 治理 、 搜 索 、 共 享 、 存 储 、 传 输 、 可 视 化 、 碍 询 、 更 新 和 信 


息 安全 等 。“ 大 数据 ”这 个 术语 很 少 指 一 个 特定 大 小 的 数据 集 ， 它 通常 
指 的 是 对 很 大 的 数据 应 用 预测 分 析 、 用 户 行 为 分 析 或 其 他 的 数据 分 析 
方法 ， 从 数据 中 提炼 出 有 用 的 信息 ， 使 数据 产生 价值 ， 因 此 大 数据 更 
像 是 一 套 处 理 数 据 的 方法 和 解决 方案 。 如 果 非 要 给 出 一 个 定量 的 标 
准 ， 大 数据 的 数据 量 至 少 是 TB 级 别 的 ， 在 当前 这 个 信息 爆炸 的 时 代 ， 
PB 级 别 的 数据 量 已 经 较为 常见 了 。 用 于 分 析 的 数据 量 越 大 ， 分 析 得 到 
的 结果 束 越 精确 ， 基 于 分 析 结 果 做 出 的 决策 也 就 越 有 说 服 力 ， 而 更 好 
的 决策 能 够 降低 成 本 、 规 避风 险 、 提 高 业务 运营 的 效率 。 


大 数据 所 包含 的 数据 集合 的 大 小 通 瘦 超越 了 普通 软件 工具 的 处 理 
能 力 ， 换 句 话 说 ， 普 通 软 件 没 办 法 在 一 个 可 以 容忍 的 时 间 范 围 内 完成 
大 数据 的 捕获 和 处 理 。 大 数据 的 数据 量 一 直 在 飞速 增长 ，2012 年 的 时 
fx, 一般 要 处 理 的 数据 集合 还 只 有 几 十 TB， 到 现在 PB 甚至 更 大 量 级 的 
数据 已 不 新 鲜 。 要 管理 如 此 之 大 的 数据 ， 需 要 一 系列 新 的 技术 和 方 
法 ,它们 必须 具有 新 的 数据 整合 形式 ， 从 各 种 各 样 大 量 的 复杂 数据 中 
洞察 有 价值 的 信息 。 


在 2001 年 的 调查 报告 和 相关 文献 中 ，Gartner 的 分 析 员 Doug Laney 
从 三 个 维度 定义 了 数据 增长 带 来 的 机 遇 与 挑战 。 这 三 个 维度 是 大 体积 
(数据 的 数量 ) 、 高 速度 (数据 输入 输出 的 速度 ) 和 多 样 性 (数据 的 
种 类 和 来 源 ) 。 直 到 现在 ， 仍 然 有 很 多 公司 使 用 这 个 模型 描述 大 数 
据 。 2012 年 Gartner 将 它 的 定义 修改 为 : 大 数据 是 大 容量 
(Volume) 、 高 流速 (Velocity) 、 多 样 化 (Variety) 的 信息 资产 ， 它 
需要 新 的 数据 处 理 形式 来 增强 决策 、 提 升 洞察 力 、 优 化 处 理 过 程 。 
Gartner 关 于 大 数据 的 3V 定 义 一 直 被 广泛 使 用 。 与 Gartner 定 义 一 致 的 另 
外 一 种 表述 是 : 大 数据 是 具有 大 体积 、 高 流速 、 多 样 化 特征 的 信息 资 
产 ， 需 要 特定 的 技术 和 分 析 工 具 将 其 转化 为 价值 。 有 些 组 织 在 3V 的 基 
础 上 增加 了 一 个 新 的 V “Veracity”， 即 真实 性 来 描述 大 数据 。 现 在 普遍 
认可 的 大 数据 是 具有 4V， 即 Volume、 Velocity、Variety、 Veracity 特 征 
的 数据 集合 ， 用 中 文 简单 描述 就 是 大 、 快 、 多 、 真 。 


生成 和 存储 的 数据 量 大 


随 着 技术 的 发 展 ， 人 人们 收集 信息 的 能 力 越 来 越 强 ， 随 之 获取 的 数 
据 量 也 呈 爆 炸 式 增长 。 例 如 百度 每 日 处 理 的 数据 量 达 上 百 PB， 总 的 数 
据 量 规模 已 经 到 达 EP 级 。 


数据 产生 和 处 理 速 度 快 


指 的 是 销售 、 交 易 、 计 量 等 人 们 关心 的 事件 发 生 的 频率 。 例 如 ， 
2015 年 双 十 一 当天 ， 支 付 宝 的 峰值 交易 数 为 每 秒 8.59 万 笔 。 


数据 源 和 数据 种 类 多 样 


现在 要 处 理 的 数据 源 包 括 各 种 各 样 的 关系 数据 库 、NoSQL、 平 面 
文件 、XML 文 件 、 机 器 日 志 、 图 片 、 音 视频 流 等 ， 而 且 每 天 都 会 产生 
新 的 效 据 格 式 和 数据 产 。 


数据 的 真实 性 和 高 质量 


诸如 软 硬 件 异 常 、 应 用 系统 bug、 人 为 错误 等 都 会 使 数据 不 正确 。 
大 数据 处 理 中 应 该 分 析 并 过 滤 掉 这 些 有 偏差 的 、 伪 造 的、 异常 的 部 
分 ， 防 止 脏 数据 损害 到 数据 分 析 结 果 的 准确 性 。 


1. Volume 


2. Velocity 


3. Variety 


4. Veracity 


3.2 Hadoop 简 介 


Hadoop 是 较 早 用 来 处 理 大 数据 集合 的 分 布 式 存储 计算 基础 架构 ， 
最 早 由 Apache 软 件 基金 会 开发 。 利 用 Hadoop， 用 户 可 以 在 不 了 解 分 布 
式 底 层 细节 的 情况 下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 ， 执 行 
高 速 运算 和 存储 。 和 简单 地 说 ，Hadoop 是 一 个 平台 ， 在 它 之 上 可 以 更 容 
易 地 开发 和 运行 处 理 大 规模 数据 的 软件 。 


Hadoop 软 件 库 是 一 个 计算 框架 ， 在 这 个 框架 下 ， 可 以 使 用 一 种 简 
单 的 编程 模式 ， 通 过 多 台 计 算 机 构成 的 集群 ， 分 布 式 处 理 大 数据 集 。 
Hadoop 被 设计 成 可 扩展 的 ， 它 可 以 方便 地 从 单一 服务 器 扩展 到 数 千 台 
机 器 ， 每 台 机 器 进行 本 地 计算 和 存储 。 除 了 依赖 于 硬件 交付 的 高 可 用 
性 ， 软 件 库 本 身 也 提供 数据 保护 ， 并 可 以 在 应 用 层 做 失败 处 理 ， 从 而 
在 计算 机 集群 的 顶层 提供 高 可 用 服务 。 


3.2.1 Hadoop 的 构成 
Hadoop 包 括 以 下 四 个 基本 模块 : 


。 Hadoop 基 础 功能 库 : 支持 其 他 Hadoop 模 块 的 通用 程序 包 。 

。 HDFS: 一 个 分 布 式 文件 系 统 ， 能 够 以 高 吞吐 量 访问 应 用 的 数 
据 。 

。 YARN: 一 个 作业 调度 和 资源 管理 框架 。 

。 MapReduce: 一 个 基于 YARN 的 大 数据 并 行 处 理 程序 。 


除了 基本 模块 ，Hadoop 相 关 的 其 他 项 目 还 包括 : 


Ambari: 一 个 基于 Web 的 工具 ， 用 于 配置 、 管 理 和 监控 Hadoop 
集群 。 支 持 HDFS、MapReduce、Hive、HCatalog、 HBase、 
ZooKeeper、Oozie、Pig 和 Sqoop。 Ambari 还 提供 显示 集群 健康 
状况 的 仪表 盘 ， 如 热点 图 等 。Ambari 以 图 形 化 的 方式 查看 
MapReduce、Pig 和 Hive 应 用 程序 的 运行 情况 ， 因 此 可 以 通过 对 
用 户 友好 的 方式 诊断 应 用 的 性 能 问题 。 

Avro: 一 个 数据 序列 化 系统 。 

Cassandra: 一 个 可 扩展 的 无 单 点 故障 的 NoSQL 多 主 数据 库 。 
Chukwa: 一 个 用 于 大 型 分 布 式 系统 的 数据 采集 系统 。 

HBase: 一 个 可 扩展 的 分 布 式 数据 库 ， 支 持 大 表 的 结构 化 数据 
存储 。 


3.2.3 


Hive: 一 个 数据 仓库 基础 架构 ， 提 供 数据 汇总 和 命令 行 的 即席 
查询 功能 。 

Mahout: 一 个 可 扩展 的 机 器 学 习 和 数据 挖掘 库 。 

Pig: 一 个 用 于 并 行 计算 的 高 级 数据 流 语言 和 执行 框架 。 

Spark: 一 个 处 理 Hadoop 数 据 的 、 高 速 的 、 通 用 的 计算 引擎 。 
Spark 提 供 了 一 种 简单 而 富 于 表达 能 力 的 编程 模式 ， 支 持 包括 
EIL、 机 器 学 习 、 数 据 流 处 理 、 图 像 计 算 等 多 种 应 用 。 

Tez: 一 个 完整 的 数据 流 编程 框架 ， 在 YARN 之 上 建立 ， 提 供 强 
大 而 灵活 的 引擎 ， 执 行 任 意 的 有 向 无 环 图 (DAG) 数据 处 理 任 
务 ， 既 支持 批 处 理 又 支持 交互 式 的 用 户 场景 。Tez 已 经 被 Hive、 
Pig 等 Hadoop 生 态 圈 的 组 件 所 采用 ， 用 来 蔡 代 MapReduce 作 为 底 
层 执 行 引 擎 。 

ZooKeeper: 一 个 用 于 分 布 式 应 用 的 高 性 能 协调 服务 。 


Hadoop 的 主要 特点 


扩容 能 力 : 能 可 靠 地 存储 和 处 理 PB 级 的 数据 。 

成 本 低 : 可 以 利用 廉价 通用 的 机 器 组 成 的 服务 器 群 分 发 、 处 理 
数据 。 这 些 服务 器 群 总 计 可 达 数 千 个 节点 。 

高 效率 : 通过 分 发 数据 ，Hadoop 可 以 在 数据 所 在 的 节点 上 并 行 
地 处 理 它们 ， 这 使 得 处 理 非常 快速 。 

可 靠 性 : Hadoop 能 目 动 地 维护 数据 的 多 份 复制 ， 并 且 在 任务 失 
败 后 能 自动 地 重新 部 署 计算 任 务 。 


Hadoop t 


Hadoop 集 群 架构 如 图 3-1 所 示 。 


multi-node cluster 


图 3-1 一 个 多 节点 Hadoop 集 群 架构 


Hadoop 由 通用 包 、 MapReduce ( MapReduce/MR1 或 
YARN/MR2) 、HDFS 所 构成 。 通 用 包 提 供 文 件 系统 和 操作 系统 级 别 
的 抽象 ， 包 含有 必需 的 Java Archive (JAR) 和 启动 Hadoop 集 群 所 需 的 
相关 脚本 。 


为 了 有 效 调 度 任务 ， 每 一 个 与 Hadoop 兼 容 的 文件 系统 都 应 该 具有 
位 置 感 知 的 功能 ， 简 单 说 位 置 感知 就 是 知道 工作 节点 所 处 的 机 架 CE 
确 地 说 是 网 络 交换 机 ) ， 因 此 也 叫 机 架 感知 。Hadoop 应 用 能 够 使 用 这 
一 信息 执行 数据 所 在 节点 上 的 代码 。 当 任务 失败 时 ， 在 相同 交换 机 上 
的 节点 之 间 进 行 失败 切换 ， 这 会 节省 网 络 流量 。HDFS 使 用 机 架 感 知 
在 多 个 交换 机 的 节点 间 复 制 数 据 ， 用 于 数据 元 余 。 这 种 方法 降低 了 机 
架 掉 电 或 交换 机 故障 产生 的 影响 ， 如 果 一 个 硬件 出 现 问题 ， 数 据 仍然 
是 可 用 的 。 

一 个 小 规模 的 Hadoop 集 群 包含 一 个 主 节点 和 多 个 从 节点 (工作 节 
A) 。 主 节点 上 的 进程 有 Job Tracker (对 应 MR2 的 Resource 
Manager) 、NameNode， 依 据 配 置 可 能 还 会 有 Task Tracker (对 应 MR2 
BY Node Manager) 和 DataNode。 从 节点 或 工作 节点 上 的 进程 有 
DataNode 和 TaskTracker， 尽 管 该 节点 可 能 只 是 一 个 数据 工作 节点 ， 或 
者 只 是 一 个 计算 工作 节点 。 这 种 架构 一 般 只 用 于 非 标准 的 小 型 应 用 。 


在 一 个 大 型 Hadoop 集 群 中 ，HDFS 节 点 通过 专用 的 NameNode 服 务 
器 进行 管理 ，NameNode 服 务 器 上 保存 有 文件 系统 的 索引 。 Secondary 
NameNode 可 以 产生 NameNode 内 存 结构 的 快照 ， 因 此 可 以 防止 
NameNode 文 件 系 统 损坏 造成 的 数据 丢失 。 类 似 地 ， 也 有 一 个 独立 的 
JobTracker 服 务 器 管理 节点 间 的 作业 调度 。 当 Hadoop MapReduce 运 行 
在 其 他 文件 系统 上 时 ，HDFS 的 NameNode、Secondary NameNode 和 
DataNode 会 被 与 特定 文件 系统 相关 的 等 价 结构 所 代替。 


Hadoop 需 要 JRE 1.6 及 其 以 上 版 本 。 标 准 的 集群 启动 和 关闭 脚本 需 
要 在 集群 节点 间 配 置 ssh。 


3.3 ”Hadoop 基 本 组 件 
如 图 3-2 所 示 ，Hadoop 实 际 是 由 三 个 不 同 的 组 件 构成 : 


。HDFS: Hadoop 分 布 式 文件 系统 。 

。 YARN: 一 个 资源 调度 框架 。 

。 MapReduce: 一 个 分 布 式 处 理 框架 。 

程序 员 可 以 联合 使 用 这 三 个 组 件 构建 分 布 式 系统 。 


程序 员 使 用 处 


理 大 数据 集 — re. SS} SS} 
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É]3-2 ”Hadoop 基 本 组 件 


3.3.1 HDFS 


HDFS 是 一 个 运行 在 通用 硬件 设备 之 上 的 分 布 式 文件 系统 。HDFS 
是 高 度 容错 的 ， 在 廉价 的 硬件 上 部 署 。HDFS 提 供 以 高 吞吐 量 访问 应 
用 数据 的 能 力 ， 非 常 适合 拥有 大 数据 集 的 应 用 。HDFS 放 宽 了 一 些 
POSIX 的 需求 ， 人 允许 对 文件 系统 数据 的 流 式 访 问 。HDFS 源 自 为 Apache 
Nutch Web 搜 索引 擎 项 目 建 立 的 框架 ， 是 Apache Hadoop 的 核心 项 目 。 


1.。HDFS 的 目标 


。 人 硬件 容错 。HDFS 假 定 发 生硬 件 故 障 是 一 个 常态 。 硬 件 损坏 的 
情况 通常 比 预 想 出 现 的 更 加 频繁 。 一 个 HDFS 实 例 可 能 由 成 百 
上 千 的 服务 器 组 成 ， 每 个 机 器 上 存储 文件 系统 的 部 分 数据 。 事 
实 上 一 个 HDFS 包 含有 大 量 的 硬件 组 件 ， 而 在 如 此 之 多 的 硬件 
中 ， 出 现 问题 的 概率 就 非常 大 了 ， 也 可 以 说 ，HDFS 中 总 会 
部 分 组 件 处 于 不 可 用 状态 。 因 此 ， 检 测 硬件 错误 并 从 有 问题 的 
硬件 快速 自动 恢复 ， 就 成 为 HDFS 架 构 的 核心 目标 。 


流 式 数据 访问 。 运 行 在 HDFS 上 的 应 用 程序 需要 流 式 访问 它们 
的 数据 集 。 简 单 地 说 ， 流 式 访问 就 是 对 数据 边 读 取 边 处 理 ， 而 
不 是 将 整个 数据 集 读 取 完 成 后 再 开始 处 理 。 这 与 运行 在 典型 普 
通 文 件 系 统 上 的 程序 不 同 。HDFS 被 设计 成 更 适合 批 处 理 操 
作 ， 而 不 是 让 用 户 交 互 式 地 使 用 。 它 强调 的 是 数据 访问 的 吞吐 
量 而 不 是 低 延 时 。POSIX 的 许多 硬性 要 求 并 不 适合 HDFS 上 的 应 
用 程序 ， 因 为 POSIX 的 某 些 关键 语义 影响 了 数据 吞吐 量 的 提 
升 。 

支持 大 数据 集 。 部 署 在 HDFS 上 的 应 用 要 处 理 很 大 的 数据 集 。 
HDFS 中 一 个 典型 文件 的 大 小 是 几 GB 到 几 TB。HDFS 需 要 支持 
大 文件 ， 它 应 该 提供 很 大 的 数据 带宽 ， 能 够 在 单一 集群 中 扩展 
几 百 甚至 数 千 个 节点 ， 并 且 一 个 HDFS 实 例 应 该 能 够 支持 几 千 
万 个 文件 。 

简单 的 一 致 性 模型 。HDFS 应 用 程序 访问 文件 是 一 次 写 多 次 读 
模式 。 文 件 一 旦 被 创建 ， 对 该 文件 只 能 执行 追加 或 彻底 清除 操 
作 。 追 加 的 内 容 只 能 写 到 文件 尾部 ， 而 文件 中 已 有 的 任何 内 容 
都 不 能 被 更 新 。 这 些 设 定 简化 了 数据 一 致 性 问题 并 能 使 数据 访 
问 的 吞吐 量 更 高 。MapReduce 或 web 爬虫 应 用 都 适合 于 这 种 模 
型 。 

移动 计算 而 不 是 移动 数据 。 一 个 应 用 的 计算 请 求 ， 在 它 所 操作 
的 数据 附近 执行 时 效率 会 更 高 ， 尤 其 是 在 数据 集 非 常 大 的 情况 
下 更 是 如 此 。 此 时 网 络 的 竞争 最 小 ， 系 统 整体 的 吞吐 量 会 得 到 
提高 。 通 常 ， 将 计算 移动 到 临近 数据 的 位 置 ， 比 把 数据 移动 到 
应 用 运行 的 位 置 要 好 。HDFS 为 应 用 程序 提供 接口 ， 把 计算 移 
动 到 数据 所 在 位 置 。 

便捷 访问 异 构 的 软 硬 件 平台 。HDFS 能 够 很 容易 地 从 一 个 平台 
迁移 到 另 一 个 ， 这 种 便利 性 使 HDFS 为 大 量 应 用 程序 所 采用 。 


2. HDFS 架 构 


如 图 3-3 所 示 ，HDFS 是 主 了 从 架构 。 一 个 HDFS 集 群 有 一 个 
NameNode 进 程 ， 它 负责 管理 文件 系统 的 命名 空间 ， 这 里 所 说 的 命 
空间 是 指 一 种 层次 化 的 文件 组 织 形式 。NameNode 进 程控 制 被 客户 端 
访问 的 文件 ， 运 行 NameNode 进 程 的 节点 是 HDFS 的 主 节点 。HDFS 还 
有 许多 DataNode 进 程 ， 通 常 集群 中 除 NameNode 外 的 每 个 节点 都 运行 
一 个 DataNode 进 程 ， 它 管理 所 在 节点 上 的 存储 。 运 行 DataNode 进 程 的 
节点 是 HDFS 的 从 节点 ， 又 称 工 作 节 点 。HDFS 维 护 一 个 文件 系统 命名 
空间 ， 并 人 允许 将 用 户 数据 存储 到 文件 中 。 在 系统 内 部 ， 一 个 文件 被 分 
成 多 个 数据 块 ， 这 些 数据 块 实际 被 存储 到 DataNode 所 在 节点 上 。 
NameNode 不 仅 执 行文 件 系统 命名 空间 上 的 打开 文件 、 关 闭 文件 、 文 
件 和 目录 重 命名 等 操作 ， 还 要 维护 数据 块 到 DataNode 节 点 的 映射 关 
系 。DataNode 不 仅 负 责 响 应 文件 系统 客户 端的 读 写 请 求 ， 还 依照 
NameNode 下 达 的 指令 执行 数据 块 的 创建 、 删 除 和 复制 等 操作 。 
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图 3-3 ”HDFS 架 构 


NameNode 和 DataNode 进 程 运行 在 通用 的 机 器 上 ， 这 些 机 器 通常 
安装 Linux 操 作 系 统 。HDFS 是 用 Java 语 言 开 发 的 ， 任 何 支 持 Java 的 机 器 


都 可 以 运行 NameNode 或 DataNode 进 程 。 使 用 平台 无 关 的 Java 语 言 ， 意 
味 着 HDFS 可 以 部 署 在 大 艺 围 的 主机 上 。 典 型 的 部 署 是 一 台 专 用 服务 
器 作为 主 节点 ， 只 运行 NameNode 进 程 。 集 群 中 的 其 他 机 器 作为 从 节 
点 ， 每 个 上 面 运行 一 个 DataNode 进 程 。 一 台 主 机 上 不 能 同时 运行 多 个 
DataNode 进 程 。 

集群 中 NameNode 的 存在 极 大 地 简化 了 系统 架构 。NameNode 所 在 
的 主 节 点 是 HDFS 的 仲裁 人 和 所 有 元 数据 的 知识 库 。 这 样 的 系统 设计 
下 ， 用 户 数 据 永远 不 会 存储 在 主 节点 上 。 


HDFS 支 持 传统 的 层次 形 文件 组 织 。 用 户 或 应 用 可 以 创建 目录 ， 
也 可 以 在 目录 中 存储 文件 。HDFS 命 名 空间 的 层次 结构 与 其 他 文件 系 
统 类 似 ， 能 执行 创建 、 删 除 文 件 ， 把 一 个 目录 中 的 文件 移动 到 另外 的 
目录 中 ， 修 改 文件 名 称 的 操作 。HDFS 支 持 配 置 用户 配 额 和 访问 权 
限 ， 但 不 支持 软 连接 和 硬 连接 。 命 名 空间 及 其 属性 的 任何 变化 都 被 
NameNode 所 记录 。 应 用 可 以 指定 一 个 HDFS 文 件 的 副本 数 。 文 件 的 副 
本 数 被 称 为 该 文件 的 复制 因子 ， 这 个 信息 被 NameNode 存 储 。 


3。 数据 复制 


HDFS 可 以 保证 集群 中 文件 存储 的 可 靠 性 。 它 把 文件 分 解 成 一 个 
由 数据 块 构成 的 序列 ， 每 个 数据 块 有 多 个 副本 ， 这 种 数据 见 余 对 容错 
非 沿 天 键 。 当 一 个 数据 块 损 坏 时 ， 不 会 造成 数据 丢失 。 数 据 块 的 大 小 \ 
和 复制 因子 对 每 个 文件 都 是 可 配 的 。 


一 般 情 况 下 ，HDFS 中 一 个 文件 的 所 有 数据 块 ， 除 最 后 一 个 块 
外 ， 都 有 同样 的 大 小 。 但 是 ，HDFS 支 持 变 长 的 数据 块 ， 就 是 说 一 个 
文件 有 可 能 包含 两 种 大 小 的 数据 块 。 当 用 户 重 新 配置 了 文件 的 块 大 
小 ， 然 后 向 该 文件 中 追加 数据 ， 这 时 HDFS 不 会 填充 文件 的 最 后 一 个 
块 ， 而 是 用 新 的 尺寸 创建 新 块 存储 追加 的 数据 ， 这 种 情况 下 文件 中 就 
会 同时 存在 两 种 大 小 的 块 。 


应 用 可 以 指定 一 个 文件 的 副本 数 ， 即 复制 因子 。 可 以 在 文件 创建 
时 指定 复制 因子 ， 这 个 复制 因子 的 配置 以 后 是 可 以 改变 的 。 除 了 追加 
和 清除 操作 外 ，HDFS 中 的 文件 在 任何 时 候 都 是 严格 地 一 次 写 入 。 


NameNode 做 出 的 所 有 操作 ， 都 会 考虑 数据 块 的 复制 。 它 周期 性 
地 接收 集群 中 每 个 DataNode 发 出 的 心跳 和 块 报告 。 接 收 到 心跳 说 明 
DataNode 工 作 正 常 。 块 报告 包含 该 DataNode 节 点 上 所 有 数据 块 的 列 
表 。 


HDFS 使 用 所 谓 的 “机 染 感 知 ” 策 略 放置 数据 块 副本 。 这 是 一 个 需 
进行 大 量 实验 并 不 断 调整 的 特性 ， 也 是 HDFS 与 其 他 分 布 式 文件 系统 
的 主要 区 别 。 机 染 感 知 的 目的 是 要 提升 数据 可 靠 性 、 可 用 性 和 网 络 带 
宽 的 利用 率 。 当 前 HDFS 版 本 的 实现 只 是 实施 副本 放置 策略 的 第 一 
步 ， 主 要 是 为 了 验证 该 策略 在 生产 系统 上 的 有 效 性 ， 同 时 收集 更 多 的 
行为 信息 ， 以 供 继续 研究 和 测试 更 好 的 策略 。 


在 此 简单 说 一 下 可 靠 性 与 可 用 性 的 区 别 。 可 靠 性 是 指 系统 可 以 无 
故障 地 持续 运行 ， 而 可 用 性 指 的 是 系统 在 任何 给 定 的 时 刻 都 能 工作 。 
例如 ， 如 果 系 统 每 月 骨 溃 1 分 钟 ， 那 么 它 的 可 用 性 是 99.998%， 但 是 它 
还 是 非常 不 可 靠 的 。 与 之 相反 ， 如 果 一 个 系统 从 来 不 骨 溃 ， 但 是 每 年 
要 停机 两 星期 ， 那 么 它 是 高 度 可 靠 的 ， 但 是 可 用 性 只 有 96%。 


一 个 大 型 HDFS 集 群 中 会 包含 很 多 计算 机 ， 这 些 机 器 分 布 于 多 个 
机 架 上 。 位 于 不 同 机 架 上 的 两 个 节点 通过 网 络 交 换 机 进行 通信 。 大 多 
数 情况 下 ， 同 一 个 机 架 上 机 器 间 的 网 络 带宽 会 高 于 不 同 机 架 上 的 机 
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NameNode 通 过 Hadoop 机 架 感 知 策略 确定 每 个 DataNode 所 属 的 机 
架 ID。 一 种 简单 的 策略 是 在 每 个 机 架 上 放置 一 份 数据 块 的 副本 ， 这 种 
设计 即使 在 整个 一 个 机 架 (甚至 多 个 机 架 ) 失效 的 情况 下 ， 也 能 防止 
数据 丢失 。 该 策略 还 有 一 个 优点 是 ， 可 以 利用 多 个 机 架 的 带宽 读 取 数 
据 。 将 数据 副本 平均 分 布 于 集群 的 所 有 机 架 中 ， 当 集群 中 的 一 个 组 件 


(im. MRS) 失效 时 ， 重 新 负载 均衡 也 很 简单 。 但 是 很 显然 ， 写 
入 数据 时 需要 把 一 个 数据 块 传输 到 每 一 个 机 架 ， 这 样 做 的 写 入 成 本 太 
高 了 。 

在 一 个 复制 因子 为 3 的 普通 场景 中 ，HDFS 把 数据 块 的 第 一 个 副本 
放置 在 本 地 机 架 的 一 个 节点 上 ， 另 一 个 副本 放置 在 本 地 机 架 的 另外 一 
个 节点 上 ， 最 后 一 个 副本 放置 在 另外 一 个 机 架 的 节点 上 。 这 样 只 写 了 
两 个 机 架 ， 节 省 了 一 个 机 架 的 写 入 流量 ,提升 了 写 入 性 能 。 该 策略 的 
前 提 是 认可 这 样 一 种 假设 : 机 架 失 效 的 可 能 性 比 机 器 失效 的 可 能 性 小 
得 多 。 因 此 这 种 策略 并 不 会 影响 数据 的 可 靠 性 和 可 用 性 。 然 而 它 却 减 
少 了 读 取 数据 的 整体 带宽 ， 因 为 此 时 只 能 利用 两 个 机 架 的 带宽 而 不 是 
三 个 。 使 用 这 种 策略 ， 一 个 文件 的 副本 不 是 平均 分 布 于 所 有 机 架 ， 三 
分 之 一 在 同一 个 节点 ， 三 分 之 二 在 同一 个 机 架 ， 剩 下 的 三 分 之 一 分 布 
在 其 他 机 架 上 。 该 策略 提升 了 写 的 性 能 ， 同 时 没有 损害 数据 可 靠 性 或 
读 的 性 能 。 

如 果 复 制 因 子 大 于 3， 第 4 个 及 其 后 面 的 副本 被 随机 放置 ， 但 每 个 
机 架 的 副本 数量 要 低 于 上 限 值 ， 上 限 值 的 计算 公式 是 : ( (副本 
数 -1) (机 架 数 十 2) ) BE. 

由 于 NameNode 不 允许 一 个 DataNode 上 存在 一 个 数据 块 的 多 份 副 
本 ， 因 此 一 个 数据 块 的 最 大 副本 数 就 是 当时 DataNode 节 扣 的 个 数 。 


在 HDFS 支 持 选择 存储 类 型 和 存储 策略 后 ，NameNode 实 施 策略 时 
除了 依照 上 面 描 述 的 机 架 感 知 外 ， 还 考虑 到 放置 副本 的 其 他 问题 。 
NameNode 首 先 按 机 染 感 知 策略 选择 存储 节点 ， 然 后 检查 该 候选 节点 
是 否 满足 文件 的 存储 需求 。 如 果 候 选 节 和 点 不 支持 文件 的 存储 类 型 ， 
NameNode 束 会 去 寻找 其 他 节点 。 如 果 在 第 一 条 查找 路 径 上 疫 有 找到 
足够 的 节点 来 存放 副本 ， 那 么 NameNode 会 再 选择 第 二 条 路 径 继续 查 
找 可 用 于 存储 该 文件 类 型 的 节点 。 当 前 默认 的 副本 放置 策略 就 是 这 样 
工作 的 。 


为 了 使 全 局 的 带宽 消耗 和 读 延 迟 降 到 最 小 ， 在 选择 副本 时 ， 
HDFS 总 是 选择 距离 读 请 求 最 近 的 存储 节点 。 如 果 在 读 请 求 所 在 节点 
的 同一 个 机 架 上 有 需要 的 数据 副本 ， 则 HDFS 尽 量 选 择 它 来 满足 读 请 
求 。 如 果 HDFS 集 群 跨越 多 个 效 据 中 心 ， 那 么 存储 在 本 地 数据 中 心 的 
副本 会 优先 于 远程 副本 被 选择 。 


当 Hadoop 的 NameNode 节 点 启动 时 ， 会 进入 一 种 称 为 安全 模式 的 
特殊 状态 。NameNode 处 于 安全 模式 时 不 会 进行 数据 块 的 复制 操作 。 
此 时 NameNode 会 接收 来 自 DataNode 的 心跳 和 块 报告 消息 。 块 报告 中 
包含 该 DataNode 节 点 所 保存 的 数据 块 列表 ， 每 个 数据 块 有 一 个 特定 的 
最 小 副本 数 。NameNode 检 测 到 一 个 数据 块 达到 了 最 小 副本 数 时 ， 就 
认为 该 数据 块 是 复制 安全 的 。 当 检测 到 的 复制 安全 的 数据 块 达到 一 定 
比例 (由 dfs.safemode.threshold.pct 参 数 指定 ) 30 秒 后 ，NameNode 退 出 
安全 模式 。 然 后 NameNode 会 确定 一 个 没有 达到 最 小 副本 条 件 的 数据 
块 列表 ， 并 将 这 些 数 据 块 复制 到 其 他 DataNode 节 操 ， 直 至 达到 最 小 副 
本 数 。 


4. 文件 系统 元 数据 持久 化 


HDFS 命 名 空间 的 元 数据 由 NameNode 负 责 存 储 。NameNode 使 用 
一 个 叫做 EditLog 的 事务 日 志 持 久 化 记录 文件 系统 元 数据 的 每 次 变化 。 
例如 ， 在 HDFS 中 创建 一 个 新 文件 ，NameNode 就 会 向 EditLog 中 插入 一 
条 记录 标识 这 个 操作 。 同 样 ， 改 变 文 件 的 复制 因子 也 会 向 EditLog 中 插 
入 一 条 记录 。NameNode 使 用 本 地 主机 上 的 一 个 操作 系统 文件 存储 
EditLog。 整个 文件 系统 的 命名 空间 ， 包 括 数据 块 和 文件 的 映射 关系 、 
文件 系统 属性 等 ， 存 储 在 一 个 叫做 FsImage 的 文件 中 。FsImage 也 是 一 
个 NameNode 节 点 的 本 地 操作 系统 文件 。 


NameNode 在 内 存 中 保留 一 份 完整 的 文件 系统 命名 空间 映像 ， 其 
中 包括 文件 和 数据 块 的 映射 关系 。 启 动 或 者 达到 配置 的 阐 值 触发 了 检 


查 点 时 ，NameNode 把 FsImage 和 EditLog 从 磁盘 读 取 到 内 存 ， 对 内 存 中 
的 FsImage 应 用 EditLog 里 的 事务 ， 并 将 新 版 本 的 FsImage 写 回 磁盘 ， 然 
后 清除 老 的 EditLog 事 务 条 目 ， 因 为 它们 已 经 持久 化 到 FsImage To X 
个 过 程 叫 做 检查 点 。 检 查 点 的 目的 是 确认 HDFS 有 一 个 文件 系统 元 数 
据 的 一 致 性 视图 ， 这 是 通过 建立 一 个 文件 系统 元 数据 的 快照 并 保存 到 
FsImage 实 现 的 。 尽 管 可 以 高 效 读 取 FsImage， 但 把 每 次 FsImage 的 改变 
直接 写 到 磁盘 的 效率 是 很 低 的 。 蔡 代 做 法 是 将 每 次 的 变更 持久 化 到 
Editlog 中 ， 在 检查 点 期 间 再 把 FsImage 刷 新 到 磁盘 。 检 查 点 有 两 种 触发 
机 制 ， 按 以 秒 为 单位 的 时 间 间 隔 (dfsnamenode.checkpoint.period) fih 
发 ， 或 者 达到 文件 系统 累加 的 事务 值 (dfs.namenode.checkpoint.txns) 
时 触发 。 如 果 两 个 参数 都 设置 ， 两 种 条 件 都 会 触发 检查 点 。 熟 悉数 据 
库 的 读者 对 检查 点 这 一 概念 一 定 不 会 阴 生 ，NameNode 的 FsImage 和 
EditLog， 其 作用 与 关系 数据 库 中 的 数据 文件 、 重 做 日 志文 件 非常 类 
似 。 


DataNode 把 HDFS 文 件 里 的 数据 存储 到 本 地 文件 系统 ， 是 联系 本 
地 文件 系统 和 HDFS 的 纽带 。DataNode 将 HDFS 的 每 个 数据 块 存 到 一 个 
单独 的 本 地 文件 中 ， 这 些 本 地 文件 并 不 都 在 同一 个 目录 中 。DataNode 
会 根据 实际 情况 决定 一 个 目录 中 的 文件 数 ， 并 在 适当 的 时 候 建 立 子 目 
录 。 本 地 文件 系统 不 能 支持 在 一 个 目录 里 创建 太 多 的 文件 。DataNode 
启动 时 会 扫描 本 地 文件 系统 ， 生 成 一 个 该 节点 上 与 本 地 文件 对 应 的 所 
有 HDFS 数 据 块 的 列表 ， 并 把 列表 上 报 给 NameNode， 这 个 报告 就 是 前 
面 所 说 的 块 报告 。 


5。HDEFS 示 例 


如 图 3-4 所 示 ， 有 一 个 256MB 的 文件 ， 集 群 中 有 4 个 节点 ， 那 么 默 
认 情 况 下 ， 当 把 文件 上 传 到 集群 时 ， 系 统 会 自动 做 三 件 事情 : 


。 HDFS 会 将 此 文件 分 成 四 个 64MB 的 数据 块 。 


。 每 个 块 有 三 个 复制 。 
。 数据 块 被 分 散 到 集群 节点 中 ， 确 保 对 于 任意 数据 块 ， 没 有 两 个 
块 复制 在 相同 的 节点 上 。 


文件 自动 分 解 成 数据 块 


图 3-4 HDFS 示 例 


这 个 简单 的 数据 分 布 算 法 是 Hadoop 成 功 的 关键 ， 它 显著 提高 
HDFS 集 群 在 硬件 失效 时 的 可 用 性 ， 并 且 使 MapReduce 计 算 框架 成 为 可 


能 。 
3.3.2 MapReduce 


MapReduce 是 一 个 分 布 式 计 算 软 件 框架 ， 支 持 编写 处 理 大 数据 量 
(TB 以 上 ) 的 应 用 程序 。MapReduce 程 序 可 以 在 几 千 个 节点 组 成 的 集 
群 上 并 行 执行 。 集 群 节 点 使 用 通用 的 硬件 ， 以 硬件 元 余 保 证 系统 的 可 
靠 性 和 可 用 性 ， 而 MapReduce 框 染 则 从 软件 上 保证 处 理 任 务 的 可 靠 
和 容错 性 。 


在 Hadoop 中 每 个 MapReduce 应 用 程序 被 表示 成 一 个 作业 ， 每 个 作 
业 又 被 分 成 多 个 任务 。 应 用 程序 向 框架 提交 一 个 MapReduce 作 业 ， 作 


业 一 般 会 将 输入 的 数据 集合 分 成 彼此 独立 的 数据 块 ， 然 后 由 map 任 务 
以 并 行 方式 完成 对 数据 分 块 的 处 理 。 框 架 对 map 的 输出 进行 排序 ， 之 
后 输入 到 reduce 任 务 。 MapReduce 作 业 的 输入 输出 都 存储 在 一 个 如 
HDFS 的 文件 系统 上 。 框 架 调度 并 监控 任务 的 执行 ， 当 任务 失败 时 框 
架 会 重新 启动 任务 。 


通常 情况 下 ， 集 群 中 的 一 个 节点 既是 计算 节点 ， 又 是 存储 节点 。 
也 就 是 说 ，MapReduce 人 框架 和 HDFS 共 同 运 行 在 多 个 节点 之 上 。 这 种 设 
计 效 率 非常 高 ， 框 架 可 以 在 数据 所 在 的 节点 上 调度 任务 执行 ， 大 大 节 
省 了 集群 节点 间 的 整体 带宽 。 


Hadoop 0.20.0 和 之 前 的 版 本 里 ，MapReduce 杠 架 由 JobTracker 和 
TaskTracker 组 成 。JobTracker 是 一 个 运行 在 主 节点 上 的 后 台 服务 进程 ， 
启动 之 后 会 一 直 监 听 并 接收 来 自 各 个 TaskTracker 发 送 的 心跳 ， 包 括 资 
源 使 用 情况 和 任务 运行 情况 等 信息 。TaskTracker 是 运行 在 从 节点 上 的 
进程 ， 它 一 方面 从 JobTracker 接 收 并 执行 各 种 命令 ， 包 括 提 交 任 务 、 运 
行 任务 、 杀 死 任务 等 ， 另 一 方面 将 本 地 节点 上 各 个 任务 的 状态 通过 心 
跳 ， 周 期 性 地 汇报 给 JobTracker。 TaskTracker 5 JobTracker Z. [8] X FH 
RPC 协 议 进行 通信 。 为 解决 MapReduce 框 架 的 性 能 瓶 颂 ， 从 0.23.0 版 本 
开始 ，Hadoop 的 MapReduce 框 架 完全 重 构 ， 使 用 YARN 管 理 资 源 ， 框 
架 的 组 成 变 为 三 个 部 分 : 一 个 主 节 点 上 的 资源 管理 器 
ResourceManager， 每 个 从 节点 上 的 节点 管理 器 NodeManager， 每 个 应 
用 程序 对 应 的 MRAppMaster。 


一 个 最 简单 的 MapReduce 应 用 程序 ， 只 需要 指定 输入 输出 的 位 
置 ， 并 实现 适当 的 接口 或 抽象 类 ， 就 可 以 提供 map 和 reduce 的 功能 。 提 
交 应 用 程序 时 ， 需 要 指定 依赖 的 包 、 相 关 环 境 变 量 和 可 选 的 
MapReduce 作业 配置 参数 。 Hadoop 作 业 客 户 端 将 程序 提交 的 
MapReduce 作业 及 其 相关 配置 发 六 给 ResourceManager ， 
ResourceManager 把 作业 分 解 成 任务 ， 然 后 把 任务 和 配置 信息 分 发 给 工 


作 节 点 ， 调 度 并 监控 任务 的 执行 ， 同 时 向 作业 客户 端 提供 任务 状态 和 
诊断 信息 。 


尽管 Hadoop 框 架 是 用 Java 语 言 实 现 的 ， 但 MapReduce 应 用 程序 却 
不 一 定 要 用 Java 来 编写 。 Hadoop Streaming 提 供 了 一 个 便于 进行 
MapReduce 编 程 的 工具 包 ， 使 用 它 可 以 基于 一 些 可 执行 命令 、 脚 本 语 
言 或 其 他 编程 语言 来 实现 MapReduce。Hadoop Pipes 是 一 个 C++ API, 
人 允许 用 户 使 用 C++ 语言 编写 MapReduce 应 用 程序 。 


1. 处理 步 又 


MapReduce 数 据 处 理 分 为 Split、Map、Shuffle 和 Reduce 4 个 步骤 。 
应 用 程序 实现 Map 和 Reduce 步 又 的 逻辑 ，Split 和 Shuffle 步 又 由 框架 自 
动 完成 。 


(1) Split 步 又 


在 执行 MapReduce 之 前 ， 原 始 数据 被 分 割 成 若干 split， 每 个 split 作 
为 一 个 map 任 务 的 输入 ， 在 map 执 行 过 程 中 split 会 被 分 解 成 一 个 个 记录 
(E/E)  ，map 会 依次 处 理 每 一 个 记录 。3 引 入 split 的 概念 是 为 了 解 
决 记录 洪 出 问题 。 假 设 一 个 map 任 务 处 理 一 个 块 中 的 所 有 记录 ， 那 么 
当 一 个 记录 跨越 了 块 边界 时 怎么 办 呢 ? HDFS 的 块 大 小 是 严格 的 64MB 
(默认 值 ， 当 然 也 可 能 是 配置 的 其 他 值 ) ， 而 且 HDFS 并 不 关心 文件 
块 中 存储 的 内 容 是 什么 ， 因 此 HDFS 无 法 评估 何 时 一 个 记录 跨越 了 多 
个 块 。 

为 了 解决 此 问题 ，Hadoop 使 用 了 一 种 数据 块 的 逻辑 表示 ， 叫 做 
input splits. 当 MapReduce 作 业 客户 端 计算 input splits 时 ， 它 会 计算 出 
块 中 第 一 个 和 最 后 一 个 完整 记录 的 位 置 。 如 果 最 后 一 个 记录 是 不 完整 


AY, input split 中 包含 下 一 个 块 的 位 置信 息 ， 还 有 完整 记录 所 需 的 字 节 
仿 移 量 。 


MapReduce 数 据 处 理 是 由 input splits oka. ARENAS 
出 的 input splits 数 量 决定 了 mapper 任 务 的 数量 。ResourceManager 尽 可 
能 把 每 个 map 任 务 分 配 到 存储 input split 的 从 节点 上 ， 以 此 来 保证 input 
splits 被 本 地 处 理 。 


(2) Map 步 骤 


一 个 MapReduce 应 用 逐一 处 理 input splits 中 的 每 一 条 记录 。input 
splits 在 上 一 步骤 被 计算 完成 之 后 ，map 任 务 便 开始 处 理 它 们 ， 此 时 
Resource Manager 的 调度 器 会 给 map 任 务 分 配 它 们 处 理 数据 所 需 的 资 
产 。 


对 于 文本 文件 ， 默 认为 文件 里 的 每 一 行 是 一 条 记录 ， 一 行 的 内 容 
是 键 二 值 对 中 的 值 ， 从 split 的 起 始 位 置 到 每 行 的 字 节 偏 移 量 ， 是 键 一 
值 对 中 的 键 。 之 所 以 不 用 行 号 当 作 键 ， 是 因为 当 一 个 大 的 文本 文件 被 
分 成 了 许多 数据 块 ， 当 作 很 多 splits 处 理 时 ， 行 号 的 概念 本 身 就 是 存在 
风险 的 。 每 个 split 中 的 行 数 不 同 ， 因 此 在 处 理 一 个 split 之 前 就 计算 出 行 
数 并 不 容易 。 但 字 节 偏 移 量 是 精确 的 ， 因 为 每 个 数据 块 都 有 相同 的 固 


roy 


定 的 字 节 类 o 


map 任 务 处 理 每 一 个 记录 时 ， 会 生成 一 个 新 的 中 间 键 一 值 对 ， 这 
个 键 和 值 可 能 与 输入 对 完全 不 同 。map 任 务 的 输出 就 是 这 些 中 间 键 一 
值 对 的 全 部 集合 。 为 每 个 map 任 务 生 成 最 终 的 输出 文件 前 ， 先 会 依据 
键 进行 分 区 ， 以 便 将 同一 分 组 的 数据 交 给 同一 个 reduce 任 务 处 理 。 在 
非常 简单 的 应 用 场景 下 ， 可 能 只 有 一 个 reduce 任 务 ， 此 时 map 任 务 的 所 
有 输出 都 会 被 写 入 一 个 文件 。 但 是 在 有 多 个 reduce 任 务 的 情况 下 ， 每 
个 map 任 务 会 基于 分 区 键 生成 多 个 输出 文件 。 框 架 默 认 的 分 区 函数 


(HashPartitioner) 满足 大 多 数 情 况 ， 但 有 时 也 需要 定制 自己 的 
partitioner， 例 如 需要 对 mapper 的 结果 集 进行 二 次 排序 时 。 


在 应 用 程序 中 最 好 对 map 任 务 的 输出 文件 进行 压缩 以 获得 更 优 的 


(3) Shuffle 步 骤 


Map 步 骤 之 后 ， 开 始 Reduce 处 理 之 前 ， 还 有 一 个 重要 的 步骤 叫做 
Shuffle。MapReduce 保 证 每 个 reduce 任 务 的 输入 都 是 按照 键 排 好 序 的 。 
系统 对 map 任 务 的 输出 执行 排序 和 转换 ， 并 映射 为 reduce 任 务 的 输入 ， 
此 过 程 就 是 Shuffle， 它 是 MapReduce 的 核心 处 理 过 程 。 在 Shuffle 中 ， 
会 把 map 任 务 输出 的 一 组 无 规则 的 数据 尽量 转换 成 一 组 具有 一 定 规则 
的 数据 ， 然 后 把 数据 传递 给 reduce 任 务 运 行 的 节点 。Shuffle 横 跨 Map 端 
和 Reduce 端 ， 在 Map 端 包括 sp 记过 程 ， 在 Reduce 端 包括 copy 和 sort 过 
程 ， 如 图 3-5 所 示 。 


f 1 1 
map reduce 


Shuffle 


图 3-5 Shuffleit f£ 


需要 注意 的 是 ， 只 有 当 所 有 的 map 任 务 都 结束 时 ，reduce 任 务 才 会 
开始 处 理 。 如 果 一 个 map 任 务 运 行 在 一 个 配置 比较 差 的 从 节点 上 ， 它 


的 滞后 会 影响 MapReduce 作 业 的 性 能 。 为 了 避免 这 种 情况 的 发 生 ， 
MapReduce 框 架 使 用 了 一 种 叫做 推测 执行 的 方法 。 所 谓 的 推测 执行 ， 
就 是 当 所 有 task 都 开始 运行 之 后 ，MRAppMaster 会 统计 所 有 任务 的 平 
均 进 度 ， 如 果 某 个 task 所 在 的 task node 因 为 硬件 配置 比较 低 或 者 CPU 
load 很 高 等 原因 ， 导 致 任务 执行 比 总 体 任务 的 平均 执行 慢 ， 此 时 
MRAppMaster 会 启动 一 个 新 的 任务 (duplicate task) ， 原 有 任务 和 新 
任务 哪个 先 执 行 完 就 把 另外 一 个 kill。 另 外 ， 根 据 mapreduce jobs SER 
特点 ， 同 一 个 task 执 行 多 次 的 结果 是 一 样 的 ， 所 以 task 只 要 有 一 次 执行 
成 功 ，job 就 是 成 功 的， 被 kill 的 task 对 job 的 结果 没有 影响 。 如 果 你 监测 
到 任务 执行 成 功 ， 但 是 总 有 些 任务 被 kill， 或 者 map 任 务 的 数量 比 预期 
的 多 ， 可 能 就 是 此 原因 所 在 。 


map 任 务 的 输出 不 写 到 HDFS， 而 是 写 入 map 任 务 所 在 从 节 点 的 本 
地 磁盘 ， 这 个 中 间 结 果 也 不 会 在 Hadoop 集 群 间 进 行 复制 |。 


(4) Reduce 步 又 


Reduce 步 骤 负 责 数据 的 计算 归并 ， 它 处 理 Shuffle 后 的 每 个 键 及 其 
对 应 值 的 列表 ， 并 将 一 系列 键 二 值 对 返回 给 客户 端 应 用 。 有 些 情 况 下 
只 需要 Map 步 骤 的 处 理 就 可 以 为 应 用 生成 输出 结果 ， 这 时 就 没有 
Reduce 步 又。 例如 ， 将 全 部 文本 转换 成 大 写 这 种 基本 的 转化 操作 ， 或 
者 从 视频 文件 中 抽取 关键 帧 等 。 这 些 数 据 处 理 只 要 Map 阶 段 就 够 了 ， 
因此 又 叫 map-only 作 业 。 但 在 大 多 数 情 况 下 ， 到 map 任 务 输 出 结果 只 
完成 了 一 部 分 工作 。 剩 下 的 任务 是 对 所 有 中 间 结 果 进 行 归 并 、 聚 合 
操作 ， 最 终生 成 一 个 汇总 的 结果 。 

与 map 任 务 类 似 ，reduce 任 务 也 是 逐条 处 理 每 一 个 键 。 通 常 reduce 
为 每 个 处 理 的 键 返回 单一 键 二 值 对 ， 但 这 个 结果 键 二 值 对 可 能 会 比 原 
始 输入 的 键 二 值 对 小 得 多 。 当 reduce 任 务 完成 后 ， 每 个 reduce 任 务 的 输 


会 号 入 一 个 结果 文件 ， 并 将 结果 文件 存储 到 HDFS 中 ，HDFS 会 目 动 
生成 结果 文件 效 据 块 的 副本 。 


Resource Manager 会 尽量 给 map 任 务 分 配 资源 ， 确 保 input splits 被 
本 地 处 理 ， 但 这 个 策略 不 适用 于 reduce 任 务 。Resource Manager 假 定 
map 的 结果 集 需 要 通过 网 络 传 输 给 reduce 任 务 进行 处 理 。 这 样 实现 的 原 
因 是 ， 要 对 成 百 上 千 的 map 任 务 输出 进行 Shuffle， 没 有 切实 可 行 的 方 
法 为 reduce 实 施 相同 的 本 地 优先 策略 。 


2. 逻辑 表示 

MapReduce 计 算 模型 一 般 包 括 两 个 重要 的 阶段 : Map 是 映射 ， 负 
责 数 据 的 过 滤 分 发 ;Reduce 是 规约 ， 负 责 数 据 的 计算 归并 。Map 遂 数 
和 Reduce 闵 数 都 是 通过 键 值 对 来 操作 数据 的 。Map 遂 数 将 输入 数据 


按 数 据 的 类 型 和 一 定 的 规则 进行 分 解 ， 并 返回 一 个 中 间 键 一 值 对 的 列 
表 ， 如 下 所 示 : 


Map(ki,v1) > list(k2,v2) 


Reduce 了 图 数 处 理 Map 阶 段 产 生 的 组 ， 按 键 依次 产生 归并 后 的 值 的 
集合 ， 如 下 所 示 : 


Reduce(k2, list (v2)) > list(v3) 

通常 一 次 Reduce 调 用 会 返回 一 个 v3 值 或 返回 空 ， 尽 管 允 许 一 次 调 
用 返回 多 个 值 。 所 有 Reduce 调 用 的 返回 值 集成 在 一 起 作为 请 求 的 结果 
列表 。 


为 了 实现 MapReduce ， 仅 仅 有 键 二 值 对 的 抽象 是 不 够 的 。 
MapReduce 的 分 布 式 实现 还 需要 一 个 Map 和 Reduce 两 个 执行 阶段 的 “ 连 


接 器 *»， 它 可 以 是 一 个 分 布 式 文件 系统 ， 如 HDFS， 也 可 以 是 从 mapper 


到 reducer 的 数据 流 。 


既然 本 书 讲 的 是 数据 仓库 ， 我 们 就 来 看 一 个 SQL 的 例子 。 想 象 有 
一 个 11 亿 人 口 数据 的 数据 库 ， 要 按 年 龄 分 组 统计 每 个 年 龄 的 平均 社会 
天 系数 。 查 询 语句 如 下 : 


select 
age, avg 


(contacts) 
from 


social.person 
group by 


age 
order by 


age; 


使 用 MapReduce，K1 键 可 以 是 1 到 1100 的 整数 ， 每 个 整数 表示 一 个 
100 万 条 人 口 记 录 的 批 次 号 。K2 键 是 人 口 的 年 龄 。 这 个 统计 可 以 使 用 
下 面 的 Map/Reduce 国 数 伪 代码 实现 : 


function Map is 
input: integer K1 between 1 and 1100, representing a 
batch of 1 million social.person 
records 
for each social.person record in the K1 batch do 
let Y be the person's age 
let N be the number of contacts the person has 
produce one output record (Y,(N,1)) 
repeat 
end function 


function Reduce is 
input: age (in years) Y 
for each input record (Y,(N,C)) do 


Accumulate in S the sum of N*C 
Accumulate in Cnew the sum of C 
repeat 
let A be S/Cnew 
produce one output record (Y,(A,Cnew)) 
end function 


MapReduce 系 统 将 线性 增长 到 1100 个 Map 进 程 ， 每 个 进程 处 理 100 
万 条 输入 记录 。 在 Map 步 骤 里 ， 将 产生 11 亿 条 (Y,(N,1)) 记录 ，Y 表 示 
年 龄 ， 假 设 取 值 范围 在 8 到 103 之 间 。MapReduce 系 统 将 线性 产生 96 个 
Reduce 进 程 执行 中 间 键 一 值 对 的 Shuffle 操 作 。 每 个 Map 进 程 产生 的 100 
万 条 记录 ， 经 过 输出 、 排 序 、 溢 写 、 合 并 等 map 端 的 Shuffle 操 作 ， 输 
出 到 96 个 Reduce 进 程 ，Reduce 端 再 进行 合并 排序 ， 计 算 我 们 实际 需要 
的 每 个 年 龄 的 平均 社会 关系 人 数 。Reduce 步 骤 只 会 产生 96 条 (Y,A) 
的 输出 记录 ， 它 们 以 Y 值 排序 ， 被 记录 到 最 终 的 结果 文件 。 


记 住 ， 尽 管 一 个 reduce 任 务 可 能 已 经 获得 了 所 有 map 任 务 的 输出 ， 
但 是 只 有 在 所 有 的 map 任 务 都 结束 后 ，reduce 任 务 才 开 始 执行 ， 换 句 话 
说 ， 要 保持 对 map 任 务 的 计数 。 这 一 点 至 天 重要 ， 否 则 我 们 计算 的 平 
均值 就 是 错误 的 。 例 如 ， 经 过 map 端 Shuffle 操 作 的 输出 如 下 : 


- map output #1: age, quantity of contacts 
10, 9 
10, 9 
10, 9 


- map output #2: age, quantity of contacts 
10, 9 
10, 9 


- map output #3: age, quantity of contacts 
10, 10 


如 果 在 前 两 个 map 输 出 完成 就 开始 reduce 计 算 任务 ， 此 时 得 到 的 结 
果 是 : 10 岁 的 平均 社会 关系 人 数 是 9((9+9+9+9+9)/5): 


- reduce step #1: age, average of contacts 


20 9 


这 时 第 三 个 map 输 出 完成 ， 继 续 计 算 平 均值 时 ， 我 们 得 到 的 结果 
是 9.5((9*10)/2) ， 但 这 个 数 是 错误 的 ， 正 确 的 结果 应 该 是 
9.166((9*3+9*2+10*1)/(3+2+1))o 


3. 应 用 程序 定义 


MapReduce 框 架 中 可 以 由 应 用 程序 定义 的 部 分 主要 有 : 


输入 程序 : 输入 程序 将 输入 的 文件 分 解 成 适当 大 小 
AY ‘splits’ (实践 中 典型 的 是 64MB 或 128MB) ， 框 架 为 每 一 个 
split 赋 予 一 个 Map 任 务 。 输 入 程序 从 稳定 存储 (一 般 是 分 布 式 
文件 系统 ) 读 取 数据 并 生成 键 了 值 对 。 输 入 程序 最 常见 的 例子 
是 读 取 一 个 目录 下 的 所 有 文件 ， 并 将 每 一 行 作为 一 个 记录 返 
回 。 

map 范 数 : map 遂 数 处 理 输 入 的 键 了 值 对 ， 生 成 零 个 或 多 个 中 间 
输入 键 一 值 对 。map 函 数 的 输入 与 输出 可 以 是 不 同 的 类 型 。 例 
如 单词 计数 应 用 ，map 函 数 分 解 每 行 的 单词 并 输出 每 个 单词 的 
键 一 值 对 。 单 词 是 键 ， 单 词 的 实例 数 是 值 。 

分 区 函数 : 每 个 map 国 数 的 输出 通过 应 用 定义 的 分 区 函数 分 配 
给 特定 的 reduce 任 务 。 分 区 函数 的 输入 是 键 、 值 和 reduce 任 务 的 
数量 ， 输 出 reduce 任 务 的 索引 值 。 典 型 的 分 区 函数 是 取 键 的 哈 
希 值 ， 或 对 键 的 哈 希 值 用 reduce 任 务 数 取 模 。 选 择 适当 的 分 区 
函数 对 于 数据 在 reduce 间 的 平均 分 布 和 负载 均衡 非常 重要 。 
比较 函数 : 通过 应 用 的 比较 函数 从 Map 运 行 的 节点 为 reduce 拉 取 
数据 并 排序 。 


e reduceEKZX : 框架 按键 的 排序 为 每 个 唯一 的 键 调用 一 次 应 用 的 
reduce 阔 数 。reduce 国 数 会 在 与 键 相关 的 多 个 值 中 迭代 ， 然 后 生 
成 零 个 或 多 个 输出 。 例 如 单词 计数 应 用 ，reduce 阔 数 获取 到 输 
入 值 ， 对 它们 进行 汇总 计算 ， 并 为 每 个 单词 及 其 计数 值 生 成 单 
个 输出 项 。 

。 输出 程序 : 输出 程序 负责 将 reduce 的 输出 写 入 稳定 存储 。 


4。MapReduce 示 例 


MapReduce 是 一 个 分 布 式 编程 模式 。 它 的 主要 思想 是 ， 将 数据 
Map 为 一 个 键 二 值 对 的 集合 ， 然 后 对 所 有 键 二 值 对 按照 相同 键 值 进行 
Reduce。 为 了 直观 地 理解 这 种 编程 模式 ， 看 一 个 在 10TB 的 Web 日 志 
计算 “ERROR” 个 数 的 例子 。 假 设 Web 日 志 输 出 到 一 系列 文本 文件 中 ， 
文件 中 的 每 一 行 代表 一 个 事件 ， 以 ERROR、WARN 或 INFO 之 一 开 
头 ， 表 示 事 件 级 别 。 一 行 的 其 他 部 分 由 事件 的 时 间 戳 及 其 描述 组 成 ， 
如 图 3-6 所 示 。 


图 3-6 ”Web 日 志 中 的 文本 


我 们 可 以 非常 容易 地 使 用 MapReduce 模 式 计算 “ERROR” 的 数量 。 
如 图 3-7 所 示 ， 在 map 阶 段 ， 识 别 出 每 个 以 *ERROR” 开 头 的 行 并 输出 键 
值 对 <ERROR, 1>。 在 reduce 阶 段 我 们 只 需要 对 map 阶 段 生 成 的 
<ERROR, 1> 对 进行 计数 。 


对 这 个 例子 稍微 做 一 点 扩展 ， 现 在 想 知 道 日 志 中 ERROR、 
WARN、INFO 分 别 的 个 数 。 如 图 3-8 所 示 ， 在 map 阶 段 检查 每 一 行 并 标 
识 键 值 对 ， 如 果 行 以 *INFO” 开 头 ， 键 值 对 为 <INFO, 1>, WRA 
“WARN”" 开 头 ， 键 值 对 为 <WARN, 1>， 如 果 以 “ERROR” 开 头 ， 键 值 对 


为 <ERROR, 1>。 在 reduce 阶 段 ， 对 每 个 map 阶 段 生 成 的 唯一 键 值 
“INFO”WARN” 和 “ERROR” 进 行 计 数 。 


识别 每 一 个 以 ERROR | 
开关 移行 


«ERROR, 1» 
«ERROR, 1» 
«ERROR, 1» 
对 Map 阶 段 生成 的 每 
个 键 值 对 进行 计数 i 
N 
| -— Reduce Phase 
«ERROR, 3» 


图 3-7 MapReduce it ‘ERROR BS 2 


N 
生成 由 事件 级 别 
(INFO、WARN、ERROR ) 
和 1 构成 的 键 值 对 | 
\ 
\ | Map Phase | 
> i E 
«ERROR, 1> «WARN, 1> «INFO, 1> 
«ERROR, 1» «INFO, 1» 
对 每 个 Map 阶 段 生成 <ERROR, 1> 
的 键 信 对 进行 计数 | l l 
\ Y 
N » | Reduce Phase 
<ERROR, 3> <WARN, 1> <INFO, 2> 


图 3-8 MapReduce PAH ERROR’, ‘WARN’, 'INFO'BSA 


通过 上 面 简单 的 示例 我 们 已 经 初步 理解 了 MapReduce 编 程 模 式 是 
如 何 工 作 的 ， 现 在 看 一 下 MapReduce 是 怎么 实现 的 。 如 图 3-9 所 示 ， 
Hadoop MapReduce 的 实现 分 为 split、map、shuffle 和 reduce 4 步 。 开 发 
者 只 需要 在 Mappers 和 Reducers 的 Java 类 中 编码 map 和 reduce 阶 段 的 逻 
辑 ， 框 架 完 成 其 余 的 工作 。 
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= RROR. 1 
«INFO, 1> M» -ERROR 1 
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图 3-9 ”MapReduce 执 行 步骤 


MapReduce 的 处 理 流程 如 下 : 


。 HDFS 分 布 数据 。 

。 向 YARN 请 求 资源 以 建立 mapper 实 例 。 

。 在 可 用 的 节点 上 建立 mapper 实 例 。 

。 对 mappers 的 输出 进行 混 洗 ， 确 保 一 个 键 对 应 的 所 有 值 都 分 配给 
相同 的 reducer。 

。 向 YARN 请 求 资源 以 建立 reducer 实 例 。 

。 在 可 用 的 节点 上 建立 reducer 实 例 。 


表面 上 看 ， 似 乎 MapReduce 能 处 理 的 情况 十 分 有 限 ， 但 实际 结果 
却 是 ， 正 如 前 面 统计 平均 社会 关系 人 数 的 例子 所 示 ， 大 多 数 SQL 操 作 
都 可 以 被 表达 成 一 连 串 的 MapReduce 操 作 ， 并 且 Hadoop 生 态 圈 的 工具 
可 以 自动 把 SQL 转化 成 MapReduce 程 序 处 理 ， 所 以 对 于 熟悉 SQL 的 开 
发 者 来 说 ， 不 必 再 自己 实现 Mapper 或 者 Reducer。 


3.3.3 YARN 


YARN 是 一 种 集群 管理 技术 ， 人 全称 是 Yet Another Resource 
Negotiator。 从 图 3-10 可 以 看 到 ，YARN 是 第 二 代 Hadoop 的 一 PARE 
性 。Apache 开 始 对 YARN 的 描述 是 ， 为 MapReduce 重 新 设计 的 一 个 资 
产 管理 器 ， 经 过 不 断 地 发 展 和 改进 ， 现 在 的 YARN 更 像 是 一 个 支持 大 
数据 应 用 的 分 布 式 操 作 系统 。 


D( [ DO( 2 
MapReduce Others 
(data processing) (data processing 
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图 3-10 Hadoop1.05Hadoop2.0 


2012 年 YARN 成 为 Apache Hadoop MW FMA, A Bt t Py 
MapReduce 2.0。 它 对 老 的 MapReduce 进 行 重 构 ， 将 资源 管理 和 调度 功 
BES MapReduceB SX fa Ab TBZB PEERS, LA Hadoop t LA SHF RSA 
据 处 理 方 法 和 更 广泛 的 应 用 。 例 如 ， 现 在 的 Hadoop 集 群 可 以 同时 执行 
MapReduce 批 处 理 作 业 、 交 互 式 查 询 和 流 数据 应 用 。 最 初 的 Hadoop 1.x 
中 ，HDFS 和 MapReduce 被 紧密 联系 在 一 起 ，MapReduce 并 行 执行 
Hadoop 系 统 上 的 资源 管理 、 作 业 调 度 和 数据 处 理 。YARN 使 用 一 个 中 
心 资源 管理 器 给 应 用 分 配 Hadoop 系 统 资 源 ， 多 个 节点 管理 器 监控 集群 
中 各 个 节点 的 操作 处 理 情况 。 


1。 第 一 代 Hadoop 的 问题 


第 一 代 Hadoop 是 共享 HDFS 实 例 的 MapReduce 集 群 模 型 。 这 种 共 
享 计算 架构 的 主要 组 件 是 JobTracker 和 TaskTracker。JobTracker 是 一 个 
中 央 守 护 进程 ， 负 责 运 行 集群 上 的 所 有 作业 。 用 户 程序 (JobClient) 
提交 的 作业 信息 会 发 送 到 JobTracker 中 ，JobTracker 与 集群 中 的 其 他 节 
点 通过 心跳 定时 通信 ， 管 理 哪些 任务 应 该 运行 在 哪些 节点 上 ， 还 负责 
所 有 任务 的 失败 重启 操作 。TaskTracker 是 系统 里 的 从 进程 ， 它 监视 自 
己 所 在 机 器 的 资源 情况 ， 并 根据 JobTracker 的 指令 来 执行 任务 。 
TaskTracker 同 时 监控 当前 机 器 的 任务 运行 状况 。TaskTracker 需 要 把 这 
些 信息 通过 心跳 发 送 给 JobTracker，JobTracker 会 搜集 这 些 信息 以 给 新 
提交 的 作业 分 配 运行 资源 。 

第 一 代 MapReduce 的 架构 简单 明了 ， 刚 推出 时 也 有 很 多 成 功 案 
例 ， 但 随 着 分 布 式 系 统 的 集群 规模 和 工作 负荷 不 断 增长 ， 使 用 原 框架 
显露 出 以 下 问题 : 


可 扩展 性 问题 。JobTracker 完 成 了 太 多 的 任务 ， 造 成 了 过 多 的 资 
源 消 耗 ， 当 MapReduce 作 业 非 常 多 的 时 候 ， 会 产生 很 大 的 内 存 
开销 ， 同 时 也 增加 了 JobTracker 失 败 的 风险 。 内 存 管理 以 及 
JobTracker 中 各 特性 的 粗 粒 度 锁 问 题 成 为 可 扩展 性 的 显著 瓶颈 。 
将 JobTracker 扩 展 到 4000 个 节点 规模 的 集群 被 证 明 是 极端 困难 
的 。 

内 存 洲 出 问题 。 在 TaskTracker 端 ， 以 MapReduce 任 务 的 数目 作 
为 资产 的 表示 过 于 简单 ， 没 有 考虑 到 任务 中 CPU、 AGHA 
情况 ， 如 果 几 个 大 内 存 消耗 的 任务 被 调度 到 了 一 起 ， 很 容易 出 
现 内 存 洪 出 问题 。 

可 靠 性 与 可 用 性 问题 。JobTracker 失 败 所 引发 的 中 断 ， 不 仅仅 是 
丢失 单独 的 一 个 作业 ， 而 是 会 丢失 集群 中 所 有 的 运行 作业 ， 并 
且 要 求 用 户 手动 重新 提交 并 恢复 他 们 的 作业 。 从 操作 的 角度 来 
看 ，MapReduce 框 架 在 发 生 任何 变化 时 (如 修复 缺陷 、 性 能 提 


升 或 增加 特性 ) ， 都 会 强制 进行 系统 级 别 的 升级 更 新 。 操 作 员 
必须 协调 好 集群 停机 时 间 ， 关 掉 集 群 ， 部 署 新 的 二 进 制 文件 ， 
验证 升级 ， 然 后 才 人 允许 提交 新 的 作业 。 任 何 停 机 都 会 导致 处 理 
的 积压 ， 当 作业 被 重新 提交 时 ， 它 们 会 给 JobTracker 造 成 明显 的 
压力 。 更 糟 的 是 ， 升 级 强制 让 分 布 式 集群 系统 的 每 一 个 客户 端 
同时 更 新 。 这 些 更 新 会 让 用 户 为 了 验证 他 们 之 前 的 应 用 程序 是 
否 适 用 于 新 的 Hadoop 版 本 而 浪费 大 量 时 间 。 

资源 模型 问题 。 在 TaskTracker 端 ， 把 资源 强制 划分 为 map 任 务 
槽 位 和 reduce 任 务 槽 位 ，map 和 reduce 的 槽 位 数量 是 配置 的 固定 
值 ， 因 此 闲置 的 map 资 源 无 法 启动 reduce 任 务 ， 反 之 亦 然 。 当 系 
统 中 只 有 map 任 务 或 只 有 reduce 任 务 的 时 候 ， 也 会 造成 资源 的 浪 
费 。 


2. YARNÆH 


为 了 解决 第 一 代 Hadoop 的 可 扩展 性 、 内 存 消 耗 、 线 程 模型 、 可 靠 
性 和 性 能 上 的 问题 ，Hadoop 开 发 出 新 一 代 的 MapReduce 框 架 ， 命 名 为 
MapReduce V2 或 者 叫 YARN， 其 架构 如 图 3-11 所 示 。 


图 3-11 YARN 架构 


YARN 的 基本 思想 是 将 资源 管理 和 调度 及 监控 功能 从 MapReduce 
分 离 出 来 ， 用 独立 的 后 台 进 程 实现 。 这 个 想法 需要 有 一 个 全 局 的 资源 
管理 器 (ResourceManager) ， 每 个 应 用 还 要 有 一 个 应 用 主管 
(ApplicationMaster) 。 应 用 可 以 是 一 个 单独 MapReduce 作 业 ， 或 者 是 
一 个 作业 的 有 向 无 环 图 (DAG) 。 


资源 管理 器 和 节点 管理 器 (NodeManager) 构成 了 分 布 式 数据 计 
算 框 架 。 资 源 管 理 器 是 系统 中 所 有 应 用 资源 分 配 的 最 终 仲裁 者 。 节 点 
管理 器 是 框架 R 中 每 个 工作 节 点 的 代理 ， 监 控 节点 CPU、 内 存 、 磁 盘 
网 络 等 资源 的 使 用 ， 并 且 报 告 给 资源 管理 器 。 


每 个 应 用 对 应 的 ApplicationMaster 实 际 上 是 框架 中 一 组 特定 的 库 ， 
负责 从 资源 管理 器 协调 资源 ， 并 和 节点 管理 器 一 起 工作 ， 共 同 执行 和 
监控 任务 

资源 管理 器 有 两 个 主要 组 件 : 调度 器 和 应 用 管理 器 。 调 度 器 负责 


给 多 个 正在 运行 的 应 用 分 配 资源 ， 比如 对 每 个 应 用 所 能 使 用 的 资源 做 
限制 ， 按 一 定 规 则 排队 等 。 调 度 器 只 负责 资源 分 配 ， 它 不 监控 或 跟踪 


应 用 的 状态 。 而 且 ， 当 任务 因为 应 用 的 错误 或 硬件 问题 而 失败 后 ， 调 
度 器 不 保证 能 重启 它们 。 调 度 器 根据 应 用 对 资源 的 需求 执行 其 调度 功 
这 基于 一 个 叫做 资源 容器 的 抽象 概念 。 资 源 容器 由 内 存 、CPU、 

、 网 络 等 元 素 构 成 。 调 度 器 使 用 一 个 可 插 拔 的 调度 策略 ， 将 集群 
im ue 分 配给 多 个 应 用 。 当 前 支持 的 调度 器 如 CapacityScheduler 和 
i ei 器 的 例子 。 


应 用 管理 器 负责 接收 应 用 提交 的 作业 ， 协 调 执行 特定 应 用 所 需 的 
资源 容器 ， 并 在 ApplicationMaster 容 器 失败 时 提供 重启 服务 。 每 个 应 用 
对 应 一 个 ApplicationMaster， 它 向 调度 器 请 求 适当 的 资源 AR, 并 跟踪 
应 用 的 状态 和 资源 使 用 情况 。 


Hadoop-2.x 的 MapReduce API 保 持 与 之 前 的 稳定 版 本 (Hadoop- 
lx) 兼容 。 这 意味 着 老 的 MapReduce 作 业 不 需要 做 任何 修改 ， 只 需要 
重新 编译 就 可 以 在 YARN 上 执行 。 


3。Capacity 调 度 器 


Capacity 调 度 器 以 一 种 操作 友好 的 方式 ， 把 Hadoop 应 用 作为 一 
共享 的 、 多 租户 集群 来 运行 ， 并 把 集群 利用 率 和 吞吐 量 最 大 化 。 
Capacity 调 度 器 允许 多 用 户 安全 地 共享 一 个 大 规模 Hadoop 集 群 ， 并 保 
证 它们 的 性 能 。 其 核心 思想 是 ，Hadoop 集 群 中 的 可 用 资源 为 多 个 用 户 
所 共享 ， 资 源 的 多 少 是 由 他 们 的 计算 需求 决定 的 。 基 于 这 种 思想 带 来 
的 一 个 好 处 是 ， 只 要 资源 没有 被 其 他 用 户 使 用 ， 一 个 用 户 就 可 以 使 用 
它 ， 从 而 以 一 种 具有 成 本 效益 的 方式 提供 资源 的 弹性 使 用 。 


多 个 用 户 共享 集群 ， 必 须要 实现 所 谓 的 多 租户 (multi-tenancy) 
技术 ， 这 是 因为 集群 中 的 每 个 用 户 任务 都 必须 保证 高 性 能 和 安全 性 。 
特别 是 集群 中 出 现 了 某 个 用 户 或 应 用 试图 占用 大 量 资源 时 ， 共 享 的 集 
群 必须 做 到 不 影响 其 他 用 户 的 使 用 。Capacity 调 度 器 提供 了 一 套 严 格 
的 限制 机 制 ， 确 保单 一 应 用 或 用 户 不 能 消耗 集群 中 不 成 比例 的 资源 数 


量 。 并 且 ，Capacity 调 度 器 可 能 限制 或 挂 起 一 个 异常 应 用 ， 以 保证 整 
个 集群 的 稳定 。 


Capacity 调 度 器 一 个 主要 的 抽象 概念 是 队列 (queues) 。 队 列 是 
Capacity 的 基础 调度 单元 ， 管 理 员 可 以 通过 配置 队列 来 影响 共享 集群 
的 使 用 。 为 了 提供 更 多 的 控制 和 可 预测 性 ，Capacity 调 度 器 支持 层次 
队列 ， 保 证 资源 在 允许 其 他 队列 使 用 之 前 ， 被 一 个 用 户 的 子 队 列 优 先 
共享 ， 以 此 为 特定 应 用 提供 资源 亲 和 性 。 


4. Fair 调 度 器 


Fair 调 度 是 将 资源 公平 分 配给 应 用 的 方法 ， 使 得 所 有 应 用 在 平均 
情况 下 随 着 时 间 得 到 相等 的 份额 。 新 一 代 Hadoop 有 能 力 调度 多 种 资源 
类 型 。 默 认 时 Fair 调 度 器 只 在 内 存 上 采用 公平 调度 。 


在 Fair 调 度 模型 中 ， 每 个 应 用 都 属于 某 一 个 队列 。YARN Container 
的 分 配 是 选择 使 用 了 最 少 资源 的 队列 ， 在 这 个 队列 中 ， 再 选择 使 用 了 
最 少 资源 的 应 用 程序 。 默 认 情 况 下 ， 所 有 的 用 户 共 享 一 个 称 为 
“default” 的 队列 。 如 果 一 个 应 用 程序 在 Container 资 源 请 求 中 指定 了 队 
列 ， 则 将 请 求 提交 到 该 队列 中 。 另 外 ， 还 可 以 将 Fair 调 度 器 配置 成 根 
据 请 求 中 包含 的 用 户 名 来 分 配 队 列 。Fair 调 度 器 还 支持 许多 功能 ， 如 
队列 的 权重 (权重 大 的 队列 获得 更 多 的 Container) ， 最 小 份额 ， 最 大 
份额 ， 以 及 队列 内 的 FIFO 策 略 ， 但 基本 思想 是 尽 可 能 平均 地 共享 资 
产 。 


在 Fair 调 度 器 下 ， 如 果 单 个 应 用 程序 正在 运行 ， 该 应 用 程序 可 以 
请 求 整个 集群 资产 。 若 有 其 他 程序 提交 ， 空 闲 的 资源 可 以 被 公平 地 分 
配给 新 的 应 用 程序 ， 使 每 个 应 用 程序 最 终 可 以 获得 大 致 相当 的 资源 。 
Fair 调 度 器 也 支持 抢占 的 概念 ， 从 而 可 以 从 ApplicationMaster 要 回 
Container. 根据 配置 和 应 用 程序 的 设计 ， 抢 占 和 随后 的 资源 分 配 可 以 
是 友好 的 或 者 强制 的 。 


除了 提供 公平 共享 ，Fair 调 度 器 还 允许 保证 队列 的 最 小 份额 ， 这 
是 确保 某 些 用 户 、 组 ， 或 者 应 用 程序 总 能 得 到 的 资源 。 当 队列 中 有 等 
待 的 应 用 程序 ， 它 至 少 可 以 获取 其 最 小 份额 的 资源 。 与 此 相反 ， 当 队 
列 并 不 需要 所 有 的 保证 份额 ， 超 出 的 部 分 可 以 分 配给 其 他 运行 的 应 用 
程序 。 为 了 避免 拥有 数 百 个 作业 的 单个 用 户 充斥 整个 集群 ，Fair 调 度 
器 可 以 通过 配置 文件 限制 用 户 和 每 个 队列 中 运行 应 用 程序 的 数量 。 若 
达到 了 该 限制 ， 用 户 应 用 程序 将 在 队列 中 等 待 ， 直 到 前 面 提交 的 作业 
完成 。 


5. Container 


在 最 基本 的 层面 ，Container 是 单个 节点 上 内 存 、CPU 核 和 磁盘 等 
物理 资源 的 集合 。 单 个 节点 上 可 以 有 多 个 Container。 系统 中 的 每 个 节 
点 可 以 认为 是 由 内 存 和 CPU 最 小 容量 的 多 个 Container 组 成 。 
ApplicationMaster 可 以 请 求 任 何 Container 来 占据 最 小 容量 的 整数 倍 的 资 
源 。 因 此 Container 代 表 了 集群 中 单个 节点 上 的 一 组 资源 CAG. CPU 
等 ) ， 由 节点 管理 器 监控 ， 由 资源 管理 器 调度 。 


每 个 应 用 程序 从 ApplicationMaster 开 始 ， 它 本 身 就 是 一 个 
Container。 一 旦 启动 ，ApplicationMaster 就 与 资源 管理 器 协商 更 多 的 
Container。 在 运行 过 程 中 ， 可 以 动态 地 请 求 或 者 释放 Container。 例 
如 ， 一 个 MapReduce 作 业 可 以 请 求 一 定数 量 的 Map Container， 当 Map 
任务 结束 时 ， 它 可 以 释放 这 些 Map Container， 并 请 求 更 多 的 Reduce 


Containero 
6. NodeManager 


NodeManager 是 DataNode 节 点 上 的 “工作 进程 ”人 代理， 管理 Hadoop 
集群 中 独立 的 计算 节点 。 其 职责 包括 与 ResourceManager 保 持 通 信 、 管 
理 Container 的 生命 周期 、 监 控 每 个 Container 的 资源 使 用 情况 、 跟 踪 节 


点 健康 状况 、 管 理 日 志和 不 同 应 用 程序 的 附属 服务 (auxiliary 


services) 等 。 


在 启动 时 ，NodeManager 向 ResourceManager 注 册 ， 然 后 发 送 包含 
了 自身 状态 的 心跳 ， 并 等 待 来 自 ResourceManager 的 指令 。 它 的 主要 目 
的 是 管理 ResourceManager 分 配给 它 的 应 用 程序 Container。 


7. ApplicationMaster 


^ fal F YARN BY K (th 28 fF, Hadoop 1.x 中 没有 组 件 和 
ApplicationMaster 相 对 应 。 本 质 上 讲 ，ApplicationMaster 所 做 的 工作 ， 
就 是 原来 JobTracker 为 每 个 应 用 所 做 的 ， 但 实现 却 是 完全 不 同 的 。 


运行 在 Hadoop 集 群 上 的 每 个 应 用 程序 ， 都 有 自己 专用 的 
Application Master 实 例 ， 它 实际 上 运行 在 每 个 从 节点 的 一 个 Container 
进程 中 。 而 JobTracker 是 运行 在 主 节点 上 的 单个 后 台 进 程 ， 跟 踪 所 有 应 
用 的 进行 情况 。 

ApplicationMaster 会 周期 性 地 向 ResourceManager 发 送 心跳 消息 ， 
报告 自 K 的 状态 和 应 用 的 资源 使 用 情况 。ResourceManager 根 据 调 度 的 
结果 ， 给 特定 从 节点 上 的 ApplicationMaster 分 配 一 个 预 留 的 Container 的 
资源 租约 。 ApplicationMaster 监控 一 个 应 用 的 整个 生命 周期 M 
Container 请 求 所 需 的 资产 开始 ， 到 ResourceManager 将 租约 请 求 分 配给 
NodeManagero 


为 Hadoop 编 写 的 每 个 应 用 框架 都 有 自己 的 ApplicationMaster 实 
现 。 在 YARN 的 设计 中 ，MapReduce 只 是 一 种 应 用 程序 框架 ， 这 种 设 
计 人 允许 使 用 其 他 框架 建立 和 部 署 分 布 式 应 用 程序 。 例 如 ，YARN 附 带 
了 一 个 Distributed-Shell 应 用 程序 ， 它 允许 在 YARN 集 群 中 的 多 个 节点 
运行 一 个 shell 脚 本 。 


3.4 Hadoop 生 态 圈 的 其 他 组 件 


Hadoop 诞 生 之 初 只 有 HDFS 和 MapReduce 两 个 软件 组 件 ， 以 后 得 
到 非常 快速 的 发 展 ， 开 发 人 员 贡 献 了 众多 组 件 ， 以 至 形成 了 Hadoop 自 
己 的 生态 圈 。 如 图 3-12 所 示 ， 除 MapReduce 外 ， 目 前 已 经 存在 Spark、 
Tez 等 分 布 式 处 理 引 擎 。 生 态 圈 中 还 有 一 系列 迁移 数据 、 管 理 集群 的 畏 
助 工 具 。 


这 些 产品 貌似 各 不 相同 ， 但 是 三 种 共同 的 特征 把 它们 紧密 联系 起 
来 。 首 先 ， 它 们 都 依赖 于 Hadoop 的 基本 组 件 -_YARN、HDFS 或 
MapReduce。 其 次 ， 它 们 都 用 来 处 理 大 数据 ， 并 提供 建立 端 到 端 数据 
流水 线 所 需 的 各 种 功能 。 最 后 ， 它 们 对 于 应 该 如 何 建立 分 布 式 系统 的 
理念 是 共通 的 。 


本 书后 面 章节 会 详细 介绍 Sqgoop、Hive、Oozie、Impala、Hue 等 组 
件 ， 并 使 用 一 个 简单 的 实例 说 明 如 何 利用 这 些 组 件 实现 ETL、 定 时 自 
动 执 行 工 作 流 、 数 据 分 析 、 数 据 可 视 化 等 完整 的 数据 仓库 功能 。 这 里 
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Hue, Beeline, Impala Shell 


ETL 
(Falcon) 
l—— ， Hive Spark3QL 
Impala 
Map 


Data Ingest: | Resource Scheduleder: | 


File Formats: 


TextFile, SequenceFiles, Avro, ORCFile, RCFile, Parquet 


| Hors | 


图 3-12 Hadoop SA 


Apache Spark 是 一 个 开源 的 集群 计算 框架 。 它 最 初 由 加 州 大 学 伯 
克利 分 校 的 AMP 实 验 室 开 发 ， 后 来 Spark 的 源 代码 捐献 给 了 Apache 软 
件 基金 会 ， 从 此 成 了 一 个 活跃 的 Apache 项 目 。Spark 提 供 了 一 套 完整 的 
集群 编程 接口 ， 内 含 容错 和 并 行 数据 处 理 能 力 。 

Spark 基本 的 数据 结构 叫做 弹性 分 布 式 数据 集 (Resilient 
Distributed Datasets， 简 称 RDD) 。 这 是 一 个 分 布 于 集群 节点 的 只 读数 
据 集 合 ， 并 以 容错 的 、 并 行 的 方式 进行 维护 。 传 统 的 MapReduce 框 架 
强制 在 分 布 式 编程 中 使 用 一 种 特定 的 线性 数据 流 处 理 方式 。 
MapReduce 程 序 从 磁盘 读 取 输 入 数据 ， 把 数据 分 解 成 键 了 值 对 ， 经 过 
混 洗 、 排 序 、 归 并 等 数据 处 理 后 产生 输出 ， 并 将 最 终结 果 保 存在 磁 
盘 。Map 阶 段 和 Reduce 阶 段 的 结果 均 要 写 磁 盘 ， 这 大 大 降低 了 系统 性 
能 。 也 是 由 于 这 个 原因 ，MapReduce 大 都 被 用 于 执行 批 处 理 任务 。 为 
了 解决 MapReduce 的 性 能 问题 ，Spark 使 用 RDD 作 为 分 布 式 程序 的 工作 
集合 ， 它 提供 一 种 分 布 式 共享 内 存 的 受 限 形式 。 在 分 布 式 共享 内 存 系 
统 中 ， 应 用 可 以 向 全 局 地 址 空间 的 任意 位 置 进行 读 写 操作 ， 而 RDD 是 
只 读 的 ， 对 其 只 能 进行 创建 、 转 化 和 求 值 等 操作 。 


利用 RDD 可 以 方便 地 实现 迭代 算法 ， 简 单 地 说 就 是 能 够 在 一 个 循 
环 中 多 次 访问 数据 集合 。RDD 还 适合 探索 式 的 数据 分 析 ， 能 够 对 数据 
重复 执行 类 似 于 数据 库 风格 的 查询 。 相 对 于 MapReduce 的 实现 ，Spark 
应 用 的 延迟 可 以 降低 几 个 数量 级 ， 其 中 最 为 经 典 的 迭代 算法 是 用 于 机 
器 学 习 系 统 的 培训 算法 ， 这 也 是 开发 Spark 的 初衷 。 

Spatk 需 要 一 个 集群 管理 器 和 一 个 分 布 式 存储 系统 作为 支撑 。 对 于 
集群 管理 ，Spark 支 持 独 立 管理 (原生 的 Spark 集 群 ) , Hadoop YARN 
和 Apache Mesos。 对 于 分 布 式 存储 ，Spark 可 以 与 多 种 系统 对 接 ， 包 括 
HDFS、 MapR 文 件 系统 、Cassandra、 OpenStack Swift, Amazon S3, 
Kudu， 或 者 一 个 用 户 自己 实现 的 文件 系统 。Spark 还 支持 伪 分 布 的 本 


地 部 署 模式 ， 但 通常 仅 用 于 开发 和 测试 目的 。 本 地 模式 不 需要 分 布 式 
存储 ， 而 是 用 本 地 文件 系统 代替 。 在 这 种 场景 中 ，Spark 运 行 在 一 个 机 
器 上 ， 每 个 CPU 核 是 一 个 执行 器 (executor) 。 


Spark 框 架 含 有 Spark Core. Spark SQL. Spark Streaming, MLlib 
Machine Learning Library, GraphX 等 几 个 主要 组 件 。 


1. Spark Core 


Spark Core 是 所 有 Spark 相 关 组 件 的 基础 。 它 以 RDD 这 个 抽象 概念 
为 核心 ， 通 过 一 组 应 用 程序 接口 ， 提 供 分 布 式 任务 的 分 发 、 调 度 和 基 
本 的 IO 功能 。Spark Core 的 编程 接口 支持 Java、Python、Scala 和 R 等 程 
序 语 言 。 这 组 接口 使 用 的 是 函数 式 编 程 模式 ， 即 一 个 包含 对 RDD 进 行 
map、filter、reduce、join 等 并 行 操 作 的 驱动 程序 ， 向 Spark 传 递 一 个 函 
数 ， 然 后 Spark 调 度 此 函数 在 集群 上 并 行 执 行 。 这 些 基 本 操作 把 RDD 作 
为 输入 并 产生 新 的 RDD。RDD 自 身 是 一 个 不 变 的 数据 集 ， 对 RDD 的 所 
有 转换 操作 都 是 lazy 模 式 ， 即 Spark 不 会 立刻 计算 结果 ， 而 只 是 简单 地 
记 住所 有 对 数据 集 的 转换 操作 。 这 些 转换 只 有 遇 到 action 操 作 的 时 候 才 
会 开始 真正 执行 ， 这 样 的 设计 使 Spark 更 加 高 效 。 容 错 功能 是 通过 跟踪 
每 个 RDD 的 “血统 ”(lineage， 指 的 是 产生 此 RDD 的 一 系列 操作 ) 实现 
的 。 一 旦 RDD 的 数据 丢失 ， 还 可 以 使 用 血统 进行 重建 。RDD 可 以 由 任 
意 类 型 的 Python、Java 或 Scala 对 象 构成 。 除 了 面向 函数 的 编程 风格 ， 
Spark 还 有 两 种 形式 的 共享 变量 : broadcast 和 accumulators。broadcast 变 
量 引 用 的 是 需要 在 所 有 节点 上 有 效 的 只 读数 据 ，accumulators 可 以 简便 
地 对 各 节点 返回 给 驱动 程序 的 值 进行 聚合 。 


一 个 典型 的 Spark 消 数 式 编程 的 例子 是 ， 统 计 文 本 文件 中 每 个 单词 
出 现 的 次 数 ， 也 就 是 常 说 的 词 频 统 计 。 在 下 面 这 段 Scala 程 序 代 码 中 ， 
每 个 flatMap 函 数 以 一 个 空格 作为 分 陋 符 ， 将 文件 分 解 为 由 单词 组 成 的 
列表 ，map 阔 数 将 每 个 单词 列表 条 目 转化 为 一 个 以 单词 为 键 ， 数 字 1 为 


值 的 RDD 对 ，reduceByKey 函 数 对 所 有 的 单词 进行 计数 。 每 个 函数 调 
用 都 将 一 个 RDD 转 化 为 一 个 新 的 RDD。 对 比 相 同 功能 的 Java 代 码 ， 
Scala 语 言 的 简洁 性 一 目 了 然 。 


// 将 一 个 本 地 文本 文件 读 取 到 (文件 名 ， 文 件 内 容 ) 的 RDD 对 。 

val data = sc.textFile("file:///home/mysql/mysql- 
5.6.14/README" ) 

// 以 一 个 空格 作为 分 隔 符 ， 将 文件 分 解 成 一 个 由 单词 组 成 的 列表 。 

val words = data.flatMap( .split(" ")) 

// 为 每 个 单词 添加 计数 ， 并 进行 聚合 计算 

val wordFreq = words.map(( , 1)).reduceByKey( + _) 

// 取得 出 现 次 数 最 多 的 10 个 单词 

wordFreq.sortBy(s => -s. 2).map(x => (x.. 2，X, 1)).top(10) 


在 spark-shell (spark-shell 是 spark 自 带 的 一 个 快速 原型 开发 的 命令 
行 工 具 ) 里 ， 这 段 代码 执行 结果 如 下 。 可 以 看 到 the 出 现 的 次 数 最 多 ， 
有 26 次 。 


scala» val data = sc.textFile("file:///home/mysql/mysql- 
5.6.14/README" ) 

data: org.apache.spark.rdd.RDD[String] = 
file:///home/mysql/mysql-5.6.14/README 
MapPartitionsRDD[13] at textFile at <console>:27 


scala» val words - data.flatMap( .split(" ")) 
words: org.apache.spark.rdd.RDD[String] - 
MapPartitionsRDD[14] at flatMap at <console>:29 


scala» val wordFreq = words.map(( , 1)).reduceByKey( + _) 
wordFreq: org.apache.spark.rdd.RDD[(String, Int)] - 
ShuffledRDD[16] at reduceByKey at 

<console>:31 


scala» wordFreq.sortBy(s => -s. 2).map(x => (x._2, 

x. 1)).top(10) 

res1: Array[(Int, String)] - Array((26,the), (15,""), 
(14,0f), (9,MySQL), (7,to), (7,is), 

(6, version), (6,0r), (6,in), (6,a)) 


2. Spark SQL 


Spark SQL 是 基于 Spark Core 之 上 的 一 个 组 件 ， 它 引入 了 名 为 
DataFrames 的 数据 抽象 。DataFrames 能 够 支持 结构 化 、 半 结构 化 数 
据 。 Spark SQL 提供 了 一 种 “领域 特定 语言 ”(Domain-Specific 
Language ， 简 称 DSL) ， 用 于 在 Scala、Java 或 Python 中 操纵 
DataFrames。 同 时 Spark SQL 也 通过 命令 行 接口 或 ODBC/JDBC 提 供 对 
SQL 语 言 的 支持 。 我 们 将 在 12.3 节 详细 讨论 Spark SQL。 下 面 是 一 段 
Scala 里 的 Spark SQL 代码 。 


val url = "jdbc:mysq1://127.0.0.1/information schema? 
user=root&password=xxxxxx" 

val sqlContext = new org.apache.spark.sql.SQLContext(sc) 
val df = sqlContext.read.format("jdbc").option("url", 
url).option("dbtable", "tables").load() 

df.printSchema( ) 

val countsByDatabase = 

df.groupBy("TABLE SCHEMA").count( ).show() 


XX ER fC 83 FH Spark SQL 连接 本 地 的 MySQL 数 据 库 ， 屏 幕 打 印 


information_schema.tables 的 表 结 构 ， 并 按 table_schema 字 段 分 组 ， 计 算 
并 显示 每 组 的 记录 数 。 其 功能 基本 等 价 于 下 面 的 MySQL 语 句 : 


use information schema; 
desc tables; 
select table schema,count(*) from tables group by 
table schema; 
执行 代码 前 先 要 在 spark-env.sh 文 件 的 SPARK_CLASSPATH 变 量 中 


添加 MySQL JDBC 驱 动 的 JAR 包 ， 例 如 : 


export 


SPARK_CLASSPATH=$SPARK_CLASSPATH 


:/mysql-connector-java-5.1.31-bin.jar 


然后 进入 spark-shell 执 行 代码 ， 最 后 一 条 语句 显示 的 输出 如 下 所 


个 \， 


scala> val countsByDatabase = 
df.groupBy("TABLE SCHEMA").count( .show() 
T 


eooocooococoocoocoood +-----+ 
| TABLE_SCHEMA| count | 
dpoococcocooooocococ deese 十 
|performance schema | 52| 
| hadoop | 37 | 
|information schema | 59 | 
| mysql | 28 | 
dpe cose NT deesse 十 


countsByDatabase: Unit = () 
3. Spark Streaming 


Spark Streaming] FA Spark Core 的 快速 调度 能 力 执 行 流 数据 的 分 
析 。 它 以 最 小 批 次 获取 数据 ， 并 对 批 次 上 的 数据 执行 RDD 转 化 。 这 样 
的 设计 ， 可 以 让 用 于 批 处 理 分 析 的 Spark 应 用 程序 代码 也 可 以 用 于 流 数 
据 分 析 ， 因 此 便于 实时 大 数据 处 理 架 构 的 实现 。 但 是 这 种 便利 性 带 来 
的 问题 是 处 理 最 小 批 次 数据 的 延 时 。 其 他 流 数据 处 理 引 擎 ， 例 如 Storm 
和 Flink 的 streaming 组 件 ， 都 是 以 事件 而 不 是 最 小 批 次 为 单位 处 理 流 数 
据 的 。Spark Streaming 支 持 从 Kafka、Flume、 Twitter、ZeroMQ、 
Kinesis 和 TCP/IP sockets 接 收 数据 。 


4. MLlib Machine Learning Library 
Spark 中 还 包含 一 个 机 器 学 习 程 序 库 ， 叫 做 MLlib。MLlib 提 供 了 很 


多 机 器 学 习 算 法 ， 包 括 分 类 、 回 归 、 聚 类 、 协 同 过 滤 等 ， 还 支持 模型 
评估 、 数 据 导 入 等 额外 的 功能 。MLlib 还 提供 了 一 些 更 底层 的 机 器 学 


习 原 语 ， 如 一 个 通用 的 梯度 下 降 算 法 等 。 所 有 这 些 方法 都 被 设计 为 可 
以 在 集群 上 轻松 伸缩 的 架构。 


5. GraphX 


GraphX 是 Spark 上 的 图 (如 社交 网 络 的 朋友 关系 图 ) 处 理 框架 。 
可 以 进行 并 行 的 图 计算 。 与 Spark Streaming 和 Spark SQL 类 似 ，GraphX 
也 扩展 了 Spark 的 RDD API， 能 用 来 创建 一 个 顶点 和 边 都 包含 任意 属性 
的 有 向 图 。 GraphX 还 支持 针对 图 的 各 种 操作 ， 比 如 进行 图 分 割 的 
subgraph 和 操作 所 有 顶点 的 mapVertices， 以 及 一 些 常 用 的 图 算法 ， 如 
PageRank 和 三 角 计 算 等 。 由 于 RDD 是 只 读 的 ， 因 此 GraphX 不 适合 需 
更 新 图 的 场景 。 


3.5 ”Hadoop 与 数据 仓库 


传统 数据 仓库 一 般 建 立 在 Oracle、MySQL 这 样 的 关系 数据 库 系统 
之 上 。 关 系数 据 库 主要 的 问题 是 不 好 扩展 ， 或 者 说 扩展 的 成 本 非常 
高 ， 因 此 面 对 当 前 4Vs 的 大 数据 问题 时 显得 能 力 不 足 ， 而 这 时 就 显示 
出 Hadoop 的 威力 。Hadoop 生 态 圈 最 大 的 吸引 力 是 它 有 能 力 处 理 非常 大 
的 数据 量 。 在 大 多 数 情况 下 ，Hadoop 生 态 圈 的 工具 能 够 比 天 系数 据 库 
处 理 更 多 的 数据 ， 因 为 数据 和 计算 都 是 分 布 式 的 。 


还 用 介绍 MapReduce 时 的 那个 例子 进行 说 明 : 在 一 个 10TB 的 Web 
日 志文 件 中 ， 找 出 单词 ERROR” 的 个 数 。 解 决 这 个 问题 最 直接 的 方法 
就 是 查找 日 志文 件 中 的 每 个 单词 ， 并 对 单词 ‘(ERROR’ 的 出 现 进行 计 
数 。 做 这 样 的 计算 会 将 整个 数据 集 读 入 内 存 。 作 为 讨论 的 基础 ， 我 们 
假设 现代 系统 从 磁盘 到 内 存 的 数据 传输 速率 为 每 秒 100MB， 这 意味 着 
在 单一 计算 机 上 要 将 10TB 数 据 读 入 内 存 需 要 27.7 个 小 时 。 如 果 我 们 把 
数据 分 散 到 10 台 计算 机 上 ， 每 台 计 算 机 只 需要 处 理 1TB 的 数据 。 它 们 


彼此 独立 ， 可 以 对 自己 的 数据 分 片 中 出 现 的 下 RROR’ 计 数 ， 最 后 再 将 
每 台 计 算 机 的 计数 相 加 。 在 此 场景 下 ， 每 台 计 算 机 需要 2.7 个 小 时 读 取 
1TB 数 据 。 因 为 所 有 计算 机 并 行 工 作 ， 所 以 总 的 时 间 也 近似 是 2.7 个 小 
时 。 这 种 方式 即 为 线性 扩展 一 一 可 以 通过 简单 地 增加 所 使 用 的 计算 机 
数量 来 减少 处 理 数据 花费 的 时 间 。 以 此 类 推 ， 如 果 我 们 使 用 100 台 计算 
机 ， 做 这 个 任务 只 需 0.27 个 小 时 。Hadoop 背 后 的 核心 观点 是 : 如 果 一 
个 计算 可 以 被 分 成 小 的 部 分 ， 每 一 部 分 工作 在 独立 的 数据 子 集 上 ， 并 
且 计 算 的 全 局 结果 是 独立 部 分 结果 的 联合 ， 那 么 此 计算 就 可 以 分 布 在 
多 台 计 算 机 中 并 行 执行 。 

分 布 式 计算 可 以 用 来 解决 大 数据 问题 ， 那 么 关系 数据 库 能 否 采 用 
分 布 式 呢 ? 答案 是 无 论 实际 中 还 是 理论 上 ， 关 系数 据 库 都 难以 在 大 规 
模 集群 的 很 多 台 机 器 上 并 行 执行 。 在 本 节 ， 先 看 一 下 关系 数据 库 可 扩 
展 性 的 不 足 ， 然 后 了 解 相关 理论 ， 最 后 说 明 使 用 Hadoop 创 建 传统 数据 
仓库 的 可 行 性 ， 及 其 生态 圈 中 与 数据 仓库 相关 的 工具 组 件 。 


3.5.1 关系 数据 库 的 可 扩展 性 瓶颈 


关系 数据 库 的 可 扩展 性 一 直 是 数据 库 三 商 和 用 户 最 关注 的 问题 。 
从 较 高 的 层次 看 ， 可 扩展 性 就 是 能 够 通过 增加 资源 来 提升 容量 ， 并 保 
持 系统 性 能 的 能 力 。 可 扩展 性 可 分 为 向 上 扩展 (Scaleup) 和 向 外 扩展 


(Scale out) 。 


向 上 扩展 有 时 也 称 为 垂直 扩展 ， 它 意味 着 采用 性 能 更 强劲 的 硬件 
设备 ， 比 如 通过 增加 CPU、 内 存 、 磁 盘 等 方式 提高 处 理 能 力 ， 或 者 购 
买 小 型 机 或 高 端 人 存储 来 保证 效 据 库 系 统 的 性 能 和 可 用 性 。 无 论坛 样 ， 
向 上 扩展 还 是 一 种 集中 式 的 架构 。 也 就 是 说 ， 数 据 库 系统 运行 在 一 台 
硬件 设备 上 ， 要 做 的 束 是 不 断 提高 这 人 台 设 备 的 配置 以 加 强 性 能 。 


向 上 扩展 最 大 的 好 处 融 是 实现 简单 ， 降 低 开 友人 员 和 维护 人 员 的 
技能 门槛 。 很 明显 单 台 服务 器 比 多 人 台 服 务 器 更 容易 开发 ， 因 为 无 须 天 


心 多 台 机 器 间 的 数据 一 致 性 或 者 谁 主 谁 从 等 问题 ， 能 显著 节省 开发 成 
本 。 同 时 单机 上 的 数据 备份 与 恢复 等 维护 工作 相对 简单 ， 也 不 用 考虑 
数据 复制 等 问题 ， 减 轻 了 系统 维护 的 工作 。 但 向 上 扩展 存在 不 可 逾越 
的 障碍 ， 当 应 用 变 得 非常 庞大 ， 向 上 扩展 策略 就 无 能 为 力 了 。 首 先是 
成 本 问题 ， 特 殊 配置 的 硬件 往往 非常 昂贵 。 再 有 向 上 扩展 不 是 无 限制 
的 ， 即 使 最 强大 的 单 台 计算 机 ， 其 处 理 能 力也 有 限制 。 当 应 用 到 达 一 
定 程度 ， 向 上 扩展 不 再 可 行 ， 此 时 就 需要 向 外 扩展 。 


向 外 扩展 有 时 也 称 为 横向 扩展 或 水 平 扩展 ， 由 多 人 台 廉 价 的 通用 服 
务 器 实现 分 布 式 计 算 ， 分 担 某 一 应 用 的 负载 。 关 系数 据 库 的 向 外 扩展 
主要 有 Shared Disk 和 Shared Nothing 两 种 实现 方式 。Shared Disk 的 各 个 
处 理 单元 使 用 自己 的 私有 CPU 和 内 存 ， 共 享 磁盘 系统 ， 典 型 的 代表 是 
Oracle RAC. Shared Nothing 的 各 个 处 理 单 元 都 有 自己 私有 的 CPU、 内 
存 和 硬盘 ， 不 存在 共享 资源 ， 各 处 理 单元 之 间 通 过 协议 通信 ， 并 行 处 
理 和 扩展 能 力 更 好 ，MySQL Fabric 采 用 的 就 是 Shared Nothing 架 构 。 


1. Oracle RAC 


Oracle RAC 是 Oracle 的 集群 解决 方案 。 其 架构 的 最 大 特点 是 共享 
存储 架构 (Shared disk) ， 整 个 RAC 和 集群 建立 在 一 个 共享 的 存储 设备 
之 上 ， 节 点 之 间 采 用 高 速 网 络 互 连 。Oracle RAC 提 供 了 较 好 的 高 可 用 
特性 ， 比 如 负载 均衡 和 透明 应 用 切换 。 其 最 大 优势 在 于 对 应 用 完全 透 
明 ， 应 用 无 须 修改 便 可 以 从 单机 数据 库 切 换 到 RAC 集 群 。 


但 是 ，RAC 的 扩展 能 力 有 限 ，32 个 节点 的 RAC 已 算 非 常 庞大 了 。 
随 着 节点 数 的 不 断 增加 ， 节 点 间 通 信 的 成 本 也 会 随 之 增加 ， 当 到 达 某 
个 限度 时 ， 增 加 节点 不 会 再 带 来 性 能 上 的 提高 ， 甚 至 可 能 造成 性 能 
降 。 这 个 问题 的 主要 原因 是 Oracle RAC 对 应 用 透明 ， 应 用 可 以 连接 集 
群 中 的 任意 节点 进行 处 理 ， 当 不 同 节点 上 的 应 用 争 用 资源 时 ，RAC 节 
扣 间 的 通信 开销 会 严重 影响 集群 的 处 理 能 力 。 


RAC 的 另外 一 个 问题 是 ， 整 个 集群 都 依赖 于 底层 的 共享 存储 ， 
此 共享 存储 的 MO 能 力 和 可 用 性 决定 了 整个 集群 可 以 提供 的 能 力 。 


2. MySQL Fabric 


MySQL Fabric 染 构 为 MySQL 提 供 了 高 可 用 和 横向 扩展 的 特性 。 在 
实际 部 署 中 ， 可 以 单独 使 用 高 可 用 或 横向 扩展 ， 也 可 以 同时 启用 这 两 
个 特性 。 


MySQL Fabric 在 MySQL 复 制 上 增加 了 一 个 管理 和 监控 层 ， 它 和 一 
组 MySQL Fabricaware 连 接 器 一 起 ， 把 写 和 一 致 性 读 操 作 路 由 到 当前 的 
主 服务 器 。MySQL Fabric 有 一 个 HA 组 的 概念 。HA 组 是 由 两 个 或 两 个 
以 上 的 MySQL 服 务 器 组 成 的 服务 器 闻 。 在 任 一 时 间 点 ，HA 组 中 有 一 
个 主 服务 器 ， 其 他 的 都 是 从 服务 器 。HA 组 的 作用 是 确保 该 组 中 的 数据 
总 是 可 访问 的 。MySQL 通 过 把 数据 复制 多 份 提供 数据 安全 性 。 


当 单 个 MySQL 服 务 器 (RHAH) 的 写 性 能 达到 极限 时 ， 可 以 使 
用 Fabric 把 数据 分 布 到 多 个 MySQL 服 务 器 组 。 注 意 这 里 说 的 组 可 以 是 
单一 服务 器 ， 也 可 以 是 HA 组 。 管 理 员 通 过 建立 一 个 分 片 映 射 ， 定 义 数 
据 如 何在 多 个 服务 中 分 片 。 一 个 分 片 映射 作 用 于 一 个 或 多 个 表 ， 由 管 
理 员 指定 每 个 表 上 的 哪些 列 作 为 分 片 键 ，MySQL Fabric 使 用 分 片 键 计 
算 一 个 表 的 特定 行 应 该 存在 于 哪个 分 片上 。 当 多 个 表 使 用 相同 的 映射 
和 分 片 键 时 ， 这 些 表 上 包含 相同 列 值 〈 用 于 分 片 的 列 ) 的 数据 行将 存 
在 于 同一 个 分 片 。 单 一 事务 可 以 访问 一 个 分 片 中 的 所 有 数据 。 目 前 
Fabric 提 供 两 种 用 分 片 键 计算 分 片 号 的 方法 : HASH 和 RANGE。 

HASH: 在 分 片 键 上 执行 一 个 哈 希 函数 生成 分 片 号 。 如 果 作 为 分 
片 键 的 列 只 有 很 少 的 重复 值 ， 那 么 哈 希 水 数 的 结果 会 平均 分 布 在 多 个 
分 片上 。 


RANGE: 管理 员 显 式 定义 分 片 键 的 取 值 范围 和 分 片 之 间 的 映射 关 
系 。 这 可 以 尽 可 能 让 用 户 控制 数据 分 片 ， 并 确定 哪 一 行 被 分 配 到 哪 一 
个 分 片 。 


应 用 程序 访问 分 片 的 数据 库 时 ， 需 要 设置 一 个 连接 属性 指定 分 片 
键 。Fabric 连 接 器 会 应 用 正确 的 范围 或 哈 希 映射 ， 并 将 事务 路 由 到 正 
确 的 分 片 。 当 需要 更 多 的 分 片 时 ，MySQL Fabric 可 以 把 现 有 的 一 个 分 
片 分 成 两 个 ， 同 时 修改 状态 存储 和 连接 器 中 缓存 的 路 由 数据 。 类 似 
地 ， 一 个 分 片 可 以 从 一 个 HA 组 迁移 到 另 一 个 。 


注意 单一 的 事务 或 查询 只 能 访问 一 个 分 片 ， 所 以 基于 对 数据 的 理 
解 和 应 用 的 访问 模式 选择 一 个 分 片 键 是 非常 重要 的 ， 并 不 是 对 所 有 表 
分 片 都 有 意义 。 对 于 当前 不 能 交叉 分 片 查询 的 限制 ， 将 某 些 小 表 的 全 
部 数据 存储 到 每 一 个 组 中 可 能 会 更 好 。 这 些 全 局 表 被 写 入 到 “全 局 
组 :， 表 中 数据 的 任何 改变 都 会 自动 复制 到 所 有 其 他 非 全 局 组 中 。 全 局 
组 中 模式 (结构 ) 的 改变 也 会 复制 到 其 他 非 全 局 组 中 以 保证 一 致 性 。 


图 3-13 所 示 的 是 一 个 具有 高 可 用 和 数据 分 片 特 性 的 MySQL Fabric 
架构 ， 图 中 共有 10 个 MySQL 实 例 ， 其 中 一 个 运行 连接 器 ， 另 外 九 个 是 
工作 节点 。 每 行 的 三 个 实例 是 一 个 HA 组 ， 每 列 的 三 个 实例 是 一 个 数据 
分 片 。 


连接 器 


分 片 1 分 片 3 


分 片 2 
mysal: 3326 mysal: 3326 mysal: 3326 
mysal: 3327 mysal: 3327 mysal: 3327 


mysal: 3328 mysal: 3328 [E] 


图 3-13 具有 高 可 用 和 数据 分 片 特性 的 MySQL Fabric 架 构 


3.5. ”CAP 理论 


我 们 已 经 看 到 ， 关 系数 据 库 的 可 扩展 性 存在 很 大 的 局 限 。 虽 然 这 
种 情况 随 着 分 布 式 数据 库 技 术 的 出 现 而 有 所 缓解 ， 但 还 是 无 法 像 
Hadoop 一 样 轻 松 在 上 千 个 节点 上 进行 分 布 式 计算 。 究 其 原因 ， 就 不 得 
不 提 到 CAP 理 论 。 


CAP 理 论 指 的 是 任何 一 个 分 布 式 计算 系统 都 不 能 同时 保证 如 下 三 
m: 


e Consistency (一 臻 性) : 所 有 节点 上 的 数据 时 刻 保持 同步 。 

e Availability (可 用 性 ) : 每 个 请 求 都 能 接收 到 一 个 响应 ， 无 论 
响应 成 功 或 失败 。 

e Partition tolerance (分 区 容错 性 ) : 系统 应 该 能 持续 提供 服务 ， 
无 论 网 络 中 的 任何 分 区 失效 。 


换 句 话说 ，CAP 理 论 意味 着 在 一 个 分 布 式 环境 下 ， 一 致 性 和 可 用 
性 只 能 取 其 一 。 这 个 观点 是 计算 机 科学 家 Eric Brewer 在 1998 年 最 先 提 


出 的 ，2002 年 Lynch 与 其 他 人 证 明了 Brewer 的 推测， 从 而 把 CAP 上 升 为 
一 个 定理 。 


高 可 用 、 效 据 一 致 是 很 多 系统 设计 的 目标 ， 但 是 分 区 又 是 不 可 如 
免 的 。 


。 CA without P: 如 果 不 要 求 P (不 允许 分 区 ) ， 则 C (58—34 
性 ) 和 A (可 用 性 ) 是 可 以 保证 的 。 但 其 实 分 区 不 是 想 不 想 的 
问题 ， 而 是 终 会 存在 。 因 此 CA 的 系统 更 多 的 是 允许 分 区 后 各 子 
系统 依然 保持 CA。 传 统 关系 型 数据 库 大 都 是 这 种 模式 。 

CP without A: 如 果 不 要 求 A (GA) ， 相 当 于 每 个 请 求 都 需要 
在 节点 之 间 强 一 致 ， 而 P (分 区 ) 会 导致 同步 时 间 无 限 延长 ， 
如 此 CP 也 是 可 以 保证 的 。 很 多 传统 的 数据 库 分 布 式 事 务 都 属于 
这 种 模式 。 

AP wihtout C: 要 高 可 用 并 允许 分 区 ， 则 需 放 弃 一 致 性 。 一 旦 分 
区 发 生 ， 节 点 之 间 可 能 会 失去 联系 ， 为 了 高 可 用 ， 每 个 节点 只 
能 用 本 地 数据 提供 服务 ， 而 这 样 会 导致 全 局 数据 的 不 一 致 性 。 
现在 众多 的 NoSQL 都 属于 此 类 。 


对 于 CAP 理 论 也 有 一 些 不 同 的 声音 ， 有 一 种 观点 认为 应 该 构建 不 
可 变 模型 避免 CAP 的 复杂 性 。CAP 的 困境 在 于 允许 数据 变更 ， 每 次 变 
更 就 得 数据 同步 ， 保 持 一 致 性 ， 这 样 系统 就 变 得 很 复杂 。 然 而 对 于 数 
据 仓 库 这 样 的 应 用 来 说 ， 数 据 就 是 客观 存在 的 ， 不 可 变 ， 只 能 增加 和 
查询 。 传 统 的 CURD (创建 、 更 新 、 读 取 、 删 除 ) 变 为 CR。 这 个 概念 
与 数据 仓库 的 非 易 失 性 非常 吻合 ， 任 何 的 变更 都 是 增加 记录 。 通 过 对 
所 有 记录 的 操作 进行 合并 ， 从 而 得 到 最 终 记录 。 因 此 ， 任 何 的 数据 模 
型 都 应 该 抽象 为 : Query-Function(all data)， 任 何 的 数据 处 理 都 是 查 
询 ， 查 询 是 对 全 体 数 据 施 加 了 某 个 水 数 的 结果 。 这 个 定义 清晰 简单 ， 
完全 抛弃 了 CAP 那 些 烦琐 而 又 模糊 的 语义 。 因 为 每 次 操作 都 是 对 所 有 
数据 进行 全 局 计算 ， 也 就 没有 了 一 致 性 问题 。 


Hadoop 正 是 这 样 的 系统 ! Hadoop 的 HDFS 只 支持 数据 增加 ， 其 数 
据 复 制 策 略 解决 了 数据 可 用 性 问题 ， 而 Mapeduce 进 行 全 局 计算 ， 完 美 
地 符合 了 对 数据 处 理 的 期 望 。 实 际 上 ， 在 Hadoop 的 Hive 上 已 经 可 以 进 
行 行 级 别 的 增删 改 操作 《本 书 第 6 章 建立 数据 仓库 示例 模型 中 将 会 详细 
NA) ， 甚 至 在 Hadoop 中 出 现 了 满足 事务 处 理 的 数据 库 产 品 Ul 


Trafodiono 


除 Hadoop 和 一 些 类 似 的 分 布 式 计 算 框 架 外 ， 有 没有 可 能 实现 一 套 
分 布 式 数据 库 集 群 ， 既 保证 可 用 性 和 一 致 性 ， 又 可 以 提供 很 好 的 扩展 
能 力 呢 ? 目前 ， 已 经 有 很 多 分 布 式 数 据 库 产 品 ， 但 大 部 分 是 面向 决策 
支持 类 型 的 应 用 ， 因 为 相 比较 事务 处 理应 用 ， 决 策 支 持 应 用 更 容易 做 
到 分 布 式 扩 展 ， 比 如 基于 PostgreSQL 发展 的 Greenplum， 就 很 好 地 解决 
了 可 用 性 和 扩展 性 的 问题 ， 并 且 提 供 了 强大 的 并 行 计 算 能 力 ， 现 在 该 
产品 已 经 成 为 Apache HWRE. 


2012 年 ，Lynch 在 证 明 CAP 理 论 十 年 后 重 写 了 论文 ， 缩 小 CAP 适 用 
的 定义 ， 消 除 质 疑 的 场景 ， 展 示 了 CAP 广 阔 的 研究 成 果 ， 并 顺便 暗示 
CAP 定 理 依旧 正确 。CAP 理 论 从 出 现 到 被 证 明 ， 再 到 饱 受 质疑 和 重新 
定义 ， 我 们 应 该 如 何 看 待 它 呢 ? 首先 肯定 的 是 ，CAP 理 论 并 不 是 神 
话 ， 它 并 不 适合 再 作为 一 个 适应 任何 场景 的 定理 ， 它 的 正确 性 更 加 适 
合 基 于 原子 读 写 的 NoSQL 场 景 。 其 次 ， 无 论 如 何 C、A、P 这 三 个 概念 
始终 存在 于 任何 分 布 式 系统 ， 只 是 不 同 的 模型 会 对 其 有 不 同 的 呈现 ， 
可 能 某 些 场景 对 三 者 之 间 的 关系 敏感 ， 而 另 一 些 不 敏感 。 最 后 ， 作 为 
开发 者 ， 一 方面 不 要 将 精力 浪费 在 如 何 设计 能 满足 三 者 的 完美 分 布 式 
系统 ， 而 是 应 该 进行 取舍 。 另 一 方面 ， 分 布 式 系 统 还 有 很 多 特性 ， 如 
优雅 降级 、 流 量 控制 等 ， 都 是 需要 考虑 的 问题 ， 而 不 仅 是 CAP 三 者 。 


3.5.3 ”Hadoop 数 据 仓 库 工具 


通过 前 面 的 描述 可 知 ， 当 数据 仓库 应 用 的 规模 和 数据 量 大 到 一 定 
程度 ， 关 系数 据 库 已 经 不 再 适 用 ， 此 时 Hadoop 是 开发 数据 仓库 项 目的 
可 选 方案 之 一 。 然 而 Hadoop 及 其 生态 圈 工 具 所 提供 的 功能 ， 能 否 满 足 
我 们 方便 、 高 效 地 开发 数据 仓库 的 要 求 呢 ?回忆 一 下 图 1-1 所 示 的 数据 
仓库 架构 ， 一 个 常规 数据 仓库 由 两 类 存储 和 6 个 主要 功能 模块 组 成 。 下 
面 我 们 就 介绍 与 这 8 个 部 分 对 应 的 Hadoop 相 关 组 件 或 产品 。 


1. RDS 和 TDS 


RDS 是 原始 数据 存储 ， 其 数据 是 从 操作 型 系统 抽取 而 来 。 它 有 两 
个 作用 ， 一 是 元 当 操 作 型 系统 和 数据 仓库 之 间 的 过 渡 区 ， 二 是 作为 细 
五 效 据 查询 的 数据 产 。TDS 是 转换 后 的 数据 人 存储， 也 就 是 数据 仓库 ， 
用 于 后 续 的 多 维 分 析 或 即席 查询 。 

这 两 类 数据 逻辑 上 分 开 ， 物 理 上 可 以 通过 在 Hive 上 建立 两 个 不 同 
的 数据 库 来 实现 ， 最 终 所 有 数据 都 被 分 布 存储 到 HDFS 上 。 


2。 抽 取 过 程 


这 里 的 抽取 过 程 指 的 是 把 数据 从 操作 型 数据 源 抽取 到 RDS 的 过 
程 ， 这 个 过 程 可 能 会 有 一 些 数 据 集成 的 操作 ， 但 不 会 做 数据 转换 、 清 
洗 、 格 式 化 等 工作 。 

Hadoop 和 生态 圈 中 的 主要 数据 摄取 工具 是 Sgoop 和 Flume。 Sqoop 被 
设计 成 支持 在 关系 数据 库 和 Hadoop 之 间 传 输 数据 ， 而 Flume 被 设计 成 
基于 流 的 数据 捕获 ， 主 要 是 从 日 志文 件 中 获取 数据 。 使 用 这 两 个 工具 
可 以 完成 数据 仓库 的 抽取 。 在 第 7 章 中 将 详细 介绍 使 用 Sqoop 抽 取 数 据 
的 实现 过 程 。 


如 果 效 据 产 是 普通 的 文本 和 CSV 文 件 ， 抽 取 过 程 将 更 加 简单 ， 只 
需 用 操作 系统 的 scp 或 fp 命令 将 文件 拉 取 到 Hadoop 集 群 的 任 一 节点 ， 


然后 使 用 HDFS 的 put 命 令 将 已 在 本 地 的 文件 上 传 到 HDFS， 或 者 使 用 
Hive 的 load data 将 文件 装载 进 表 里 就 可 以 了 。 


3. 转换 与 装载 过 程 


转换 与 装载 过 程 是 将 数据 从 RDS 迁 移 到 TDS 的 过 程 ， 期 间 会 对 数 
据 进行 一 系列 的 转换 和 人 处理。 经 过 了 数据 抽取 步 又 ， 此 时 数据 已 经 在 
Hive 表 中 aif. , 因此 Hive 可 以 用 于 转换 和 装载 。 


Hive 实 际 上 是 在 MapReduce 之 上 封装 了 一 层 SQL 解释 器 ， 这 样 可 
以 用 类 SQL 语言 书写 复杂 的 MapReduce 作 业 。Hive 不 但 提供 了 丰富 的 
数据 查询 功能 和 分 析 疼 数 ， 还 可 以 在 某 些 限制 下 进行 数据 的 行 级 更 
新 ， 因 此 支持 SCD1 (渐变 维 的 一 种 处 理 类 型 ) 。 在 第 8 章 中 将 详细 介 
绍 如 何 使 用 Hive 进 行 数 据 的 转换 与 装载 。 


4. 过 程 管理 和 自动 化 调度 


ETL 过 程 目 动 化 是 效 据 仓库 成 功 的 重要 衡量 标准 ， 也 是 系统 易 用 
性 的 天 键 。 


Hadoop 生 态 圈 中 的 主要 管理 工具 是 Falcon。Falcon 把 自己 看 作 是 
数据 治理 工具 ， 能 让 用 户 建立 定义 好 的 ETL 流 水 线 。 除 Falcon 外 ， 还 
有 一 个 叫做 Oozie 的 工具 ， 它 是 一 个 Hadoop 的 工作 流 调度 系统 ， 可 以 
使 用 它 将 ETL 过 程 封 装 进 工 作 流 自动 执行 。 在 第 9 章 中 将 详细 介绍 如 何 
使 用 Oozie 实 现 定期 自动 执行 ETL 作 业 。 


5。 数 据 目录 


数据 目录 存储 的 是 数据 仓库 的 元 数据 ， 主 要 是 描述 数据 属性 的 信 
， 用 来 支持 如 指示 存储 位 置 、 历 史 数 据 、 资 源 查 找 、 文 件 记 录 等 功 
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Hadoop 生 态 圈 中 主要 的 数据 目录 工具 是 HCatalog。HCatalog 是 
Hadoop 上 的 一 个 表 和 存储 管理 层 。 使 用 不 同 数据 处 理工 具 (如 Pig、 
MapReduce) 的 用 户 ， 通 过 HCatalog 可 以 更 加 容易 地 读 写 集群 中 的 数 
据 。HCatalog 引 入 “ 表 ” 的 抽象 ， 把 文件 看 做 数据 集 。 它 展现 给 用 户 的 
是 一 个 HDFS 上 数据 的 关系 视图 ， 这 样 用 户 不 必 关 心 数据 存放 在 哪里 
或 者 数据 格式 是 什么 等 问题 ， 就 可 以 轻松 知道 系统 中 有 哪些 表 ， 表 中 
都 包含 什么 。 

HCatalog 默认 支持 多 种 文件 格式 的 读 写 ， 如 RCFile 、 
SequenceFiles、ORC files、text files、CSV、JSON 等 。 


6. 查询 引擎 和 SQL 层 


查询 引 和 敬 和 SQL 层 主 要 的 职责 是 查询 和 分 析 效 据 仑 库 里 的 效 据 。 
由 于 最 终 用 户 经 常 需 要 进行 交互 式 的 即席 查询 ， 并 随时 动态 改变 和 组 
合 他 们 的 查询 条 件 ， 因 此 要 求 查询 引 和 党 具有 很 高 的 查询 性 能 和 较 短 的 
响应 时 间 。 


Hadoop 生 态 圈 中 的 主要 SQL 查询 引擎 有 基于 MapReduce 的 Hive、 
基于 RDD 的 SparkSQL 和 Cloudera 公 司 的 Impala。Hive 可 以 在 四 种 主流 
计算 框架 的 三 种 ， 分 别 是 Tez、MapReduce 和 Spark (还 有 一 种 是 
Storm) 上 执行 类 SQL 查询 。SparkSQL 是 Hadoop 中 另 一 个 著名 的 SQL 
引擎 ， 它 实际 上 是 一 个 Scala 程 序 语言 的 子 集 。 正 如 SparkSQL 这 个 名 字 
所 暗示 的 ， 它 以 Spark 作 为 底层 计算 框架 。Impala 是 Cloudera 公 司 的 查 
询 系 统 ， 它 提供 SQL 语 义 ， 最 大 特点 是 速度 快 ， 主 要 用 于 OLAP。 在 第 
12 章 中 将 详细 介绍 用 这 几 种 SQL 引擎 进行 数据 分 析 ， 并 对 比 它 们 的 性 
能 差异 。 除 此 之 外 ， 第 12 章 中 还 会 简单 描述 一 款 名 为 Kylin 的 OLAP 系 
统 ， 它 是 首 个 中 国 团 队 开 发 的 Apache 顶 级 项 目 ， 其 查询 性 能 表现 优 
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7。 用 户 界 面 


数据 分 析 的 结果 最 终 要 以 业务 语言 和 形象 化 的 方式 展现 给 用 户 ， 
只 有 这 样 才能 取得 用 户 对 数据 仓库 的 认可 和 信任 。 因 此 具有 良好 体验 
的 用 户 界面 是 必 不 可 少 的 。 数 据 仓库 的 最 终 用 户 界面 通常 是 一 个 BI 仪 
表盘 或 类 似 的 一 个 数据 可 视 化 工具 提供 的 浏览 器 页 面 。 


Hadoop 和 生态 圈 中 比较 知名 的 数据 可 视 化 工具 是 Hue 和 Zeppelin。 
Hue 是 一 个 开源 的 Hadoop UI 系统 ， 最 早 是 由 Cloudera Desktop 壮 化 而 
来 ， 它 是 基于 Python Web 框 架 Django 实 现 的 。 通 过 使 用 Hue 我 们 可 以 在 
浏览 器 端的 Web 控 制 台 上 与 Hadoop 集 群 进 行 交互 来 分 析 处 理 数 据 ， 还 
可 以 用 图 形 化 的 方式 定义 工作 流 。Hue 默 认 支 持 的 数据 源 有 Hive 和 
Impala。 Zeppelin 提 供 了 Web 版 的 notebook， 用 于 做 数据 分 析 和 可 视 
化 。Zeppelin 默 认 只 支持 SparkSQL。 


可 以 看 到 ， 普 通 数 据 仓库 的 8 个 组 成 部 分 都 有 相对 应 的 Hadoop 组 
件 作为 支撑 。Hadoop 生 态 圈 中 众多 工具 提供 的 功能 ， 完 全 可 以 满足 创 
建 传统 数据 仓库 的 需要 。 使 用 Hadoop 建 立 数据 仓库 不 仅 是 必要 的 ， 而 
且 是 充分 的 。 


3.6 “小 结 


(1) 现在 普遍 认可 的 大 数据 是 具有 4V， 即 Volume、 Velocity, 
Variety、 Veracity 特 征 的 数据 集合 ， 用 中 文 简 单 描述 就 是 大 、 快 、 多 、 
真 
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(2) Hadoop 是 一 个 分 布 式 系统 基础 架构 ， 它 包括 四 个 基本 模 
块 : (1) Hadoop 基 础 功能 库 ， 支 持 其 他 Hadoop 模 块 的 通用 程序 包 。 
(2) HDFS ， 一 个 分 布 式 文件 系统 ， 能 够 以 高 吞吐 量 访问 应 用 的 数 


据 。 (3) YARN ， 一 个 作业 调度 和 资源 管理 框架 。 (4) 
MapReduce， 一 个 基于 YARN 的 大 数据 并 行 处 理 程序 。 


(3) Spark 是 另 一 个 流行 的 分 布 式 计算 框架 ， 其 基本 数据 结构 是 
RDD， 它 提供 一 种 分 布 式 共享 内 存 的 受 限 形式 。 可 以 利用 RDD 方 便 地 
实现 迭代 算法 ， 相 对 于 MapReduce 的 实现 ，Spark 应 用 的 延迟 可 以 降低 
几 个 数量 级 。Spark RDD API 支 持 的 语言 包括 Java、Python、Scala 和 
Ro 


(4) CAP 理 论 指 的 是 任何 一 个 分 布 式 计 算 系 统 都 不 能 同时 保证 数 
据 一 致 性 、 可 用 性 和 分 区 容错 性 。 这 也 是 传统 关系 型 数据 库 难 以 扩展 
的 根本 原因 。 

(5) Hadoop 生 态 圈 中 众多 工具 提供 的 功能 ， 完 全 可 以 满足 创建 
传统 数据 仓库 的 需要 。 使 用 Hadoop 建 立 数据 仓库 不 仅 是 必要 的 ， 而 且 
是 充分 的 。 


第 4 章 
« 安装 Hadoop > 


在 前 三 章 里 介绍 了 数据 仓库 、Hadoop 及 其 生态 圈 的 基本 概念 ， 
容 偏重 于 理论 。 从 本 章 开始 ， 让 我 们 进入 实践 阶段 。 工 欲 善 其 事 ， 必 
先 利 其 器 。 既 然 我 们 要 用 Hadoop 建 立 数据 仓库 ， 那 么 先 要 做 的 就 是 安 


装 Hadoop。 


本 章 首 先 介绍 三 种 常见 的 Hadoop 发 行 版 本 ， 之 后 说 明 Apache 
Hadoop 的 安装 过 程 。 为 了 解决 NameNode 的 扩展 性 问题 ，Hadoop- 
0.23.0 新 增 了 HDFS Federation 特 性 。 本 章 将 介绍 HDFS Federation H 
具体 配置 。 在 本 章 最 后 ， 将 会 详细 说 明 CDH 的 离线 安装 步骤 ， 本 书后 
面 的 实践 部 分 都 是 在 CDH 5.7.0 系 统 之 上 完成 的 。 


41 Hadoop 主 要 发 行 版 本 


主流 的 Hadoop 和 生态 圈 除 了 前 面 介绍 的 Apache Hadoop 以 外 ， 还 有 
Cloudera、HortonWorks、MapR 三 个 不 同 版 本 。 这 三 个 版 本 既 有 相似 
之 处 ， 又 有 各 自 的 特点 。 它 们 都 提供 整合 后 的 企业 级 Hadoop 发 行 版 
本 ， 提 高 整体 的 部 署 效率 。 三 者 都 提供 了 可 以 自由 下 载 的 免费 版 本 ， 
但 Cloudera 和 MapR 还 有 收费 版 本 。 它 们 都 建立 了 自己 的 社区 ， 帮 助 用 
户 解决 面临 的 问题 ， 以 满足 商业 应 用 的 需求 ， 在 稳定 性 与 安全 性 方面 
也 都 经 受 住 了 时 间 的 考验 。 


4.1.1 Cloudera Distribution for Hadoop (CDH) 


Cloudera 是 第 一 个 商业 Hadoop 发 行 版 本 ， 也 是 Hadoop 用 户 最 为 熟 
悉 的 版 本 ， 是 Hadoop 和 生态 圈 中 活跃 的 代码 贡献 者 ， 其 创新 性 的 工具 广 
受 欢 迎 。 Cloudera Manager 是 一 个 管理 控制 台 ， 它 包括 丰富 的 用 户 界 
面 ， 能 够 在 一 个 框架 内 清晰 地 显示 Hadoop 及 其 各 项 服务 的 所 有 信息 ， 
非常 便于 用 户 使 用 。 专 有 的 Cloudera Management 套 件 将 Hadoop 安 装 过 
程 自动 化 ， 并 为 用 户 提 供 大 量 的 增强 功能 ， 如 实时 显示 节点 数量 、 自 
动 部 署 服务 等 。 


CDH 的 特性 如 下 : 


。 能 够 在 Hadoop 集 群 中 自由 添加 或 删除 服务 。 

。 支持 多 集群 管理 。 

。 提供 节点 模板 。 人 允许 在 Hadoop 集 群 中 建立 多 组 节点 ， 各 组 节点 
可 以 有 不 同 的 配置 。 

e 依赖 于 HDFS 的 DataNode、NameNode 架 构 ， 将 数据 处 理 与 元 数 
据 保 存 分 离 。 


CDH 的 优点 在 于 提供 了 包含 大 量 工具 和 特性 的 用 户 友好 界面 ， 缺 
点 是 相对 于 其 他 版 本 的 Hadoop， 性 能 不 是 很 好 ， 速 度 较 慢 。 


4.1.2. Hortonworks Data Platform (HDP) 


Hortonworks 公 司 是 由 Yahoo 的 工程 师 创建 的 ， 它 为 Hadoop 提 供 了 
一 种 “service only” 的 分 发 模型 。 有 别 于 另外 两 种 Hadoop 版 本 ， 
Hortonworks 是 一 个 可 以 自由 使 用 的 开放 式 企 业 级 数据 平台 。 其 Hadoop 
发 行 版 本 即 HDP， 可 以 被 自由 下 载 并 整合 到 各 种 应 用 当中 。 


Hortonworks 是 第 一 个 提供 基于 Hadoop 2.0 版 产品 的 厂商 ， 也 是 目 
前 唯一 支持 Windows 平 台 的 Hadoop 分 发 版 本 。 用 户 可 以 通过 HDInsight 
服务 ， 在 Windows Azure 上 部 署 Hadoop 集 群 。 


HDP 的 特性 如 下 : 


HDP 通 过 其 新 的 Stinger 项 目 ， 使 Hive 的 执行 速度 更 快 。 

HDP 承 诺 是 一 个 Hadoop 的 分 支 版 本 ， 对 专 有 代码 的 依赖 极 低 ， 
避免 了 厂商 锁定 。 

专注 于 提升 Hadoop 平 台 的 可 用 性 。 


HDP 的 优势 在 于 它 是 唯一 支持 Windows 平 台 的 Hadoop 有 版本， 劣势 
是 它 的 Ambari 管 理 界面 过 于 简单 ， 没 有 提供 丰富 的 特性 。 


4.1.3 


MapR Hadoop 


MapR Hadoop 是 这 三 种 Hadoop 版 本 中 运行 最 快 的 ， 它 的 理念 是 
场 驱 动 实体 ， 因 此 需要 支持 更 快 的 市 场 需求 。 与 Cloudera 和 
Hortonworks 不 同 ，MapR 使 用 更 加 分 布 式 的 方法 ， 将 元 数据 存储 在 处 
理 节 点 上 。 MapR Hadoop 建 立 在 MapRFS 文 件 系统 之 上 ， 因 此 没有 
NameNode 的 概念 。MapR 的 Hadoop 发 行 版 本 不 依赖 于 Linux 的 文件 系 


统 。 


MapR Hadoop 的 特性 如 下 : 


MapR Hadoop 依 赖 于 MapRFS， 因 此 它 是 唯一 包含 没有 任何 Java 

依赖 的 Pig、Hive 和 Sqoop 的 Hadoop 发 行 版 本 。 

WD MERE 的 Hadoop 发 行 版 本 ， 它 的 速度 更 快 ， 
可 靠 性 更 高 。 

点 直接 访问 NFS， 用 户 可 以 在 NFS 之 上 挂 载 

MapR 文 件 系 统 ， 因 此 可 以 使 用 传统 方式 访问 Hadoop 的 数据 。 

MapR Hadoop 提 供 完 整 的 数据 保护 功能 ， 没 有 单 点 故障 。 

MapR Hadoop 被 认为 是 最 快 的 Hadoop 发 行 版 本 。 


MapR Hadoop 优 点 是 速度 快 ， 没 有 单 点 故障 ， 缺 点 是 没有 好 的 用 
户 界面 控制 全 ro 


Cloudera、HortonWorks、MapR 这 三 个 都 是 Hadoop 开 源 产 品 的 商 
业 分 发 版 ， 其 价值 主要 体现 在 两 个 方面 : 


。 对 Hadoop 生 态 圈 中 各 种 各 样 的 组 件 进 行 兼容 性 测试 并 打包 。 
。 提供 工 具 简 化 Hadoop 集 群 的 安装 和 建立 。 


Hadoop 开 产 版 本 的 主要 挑战 在 于 ， 要 搞 靖 楚 哪 些 组 件 的 哪些 版 本 
是 相互 兼容 的 。 事 实证 明 ， 保 持 Hadoop 生 态 圈 开源 社区 中 众多 相关 项 
目的 版 本 同步 是 非常 困难 的 。 实 际 上 基于 版 本 的 兼容 性 是 会 随 着 版 本 
改变 的 。 保 持 对 这 些 依赖 性 的 跟踪 并 了 解 哪些 版 本 可 以 在 一 起 协同 工 
作 并 不 容易 。 为 了 使 Hadoop 的 部 署 更 加 顺利 ， 许 多 公司 已 经 把 多 种 兼 
容 的 组 件 打包 在 一 起 。 


集群 的 建立 和 管理 是 另 一 个 主要 挑战 。 安 装 集 群 并 在 安装 后 监控 
集群 的 健康 状况 都 比较 困难 。Hadoop 主 要 发 行 版 本 通过 提供 多 种 工 
具 ， 使 集群 的 建立 和 管理 简化 了 很 多 。 从 后 面 介绍 的 开源 版 本 Hadoop 
和 和 CDH 安装 可 以 看 到 两 者 的 区 别 。 


每 种 主要 发 行 版 本 所 包含 的 组 件 集合 都 不 尽 相 同 。 例 如 ， 
Cloudera 包 含 Impala， 而 HortonWorks 里 就 没有 。 这 些 区 别 会 给 选择 发 
行 版 本 带 来 烦恼 一 一 并 不 是 每 一 个 分 发 版 本 都 包含 Hadoop 生 态 圈 的 所 
有 工具 。 


4.2 ”安装 Apache Hadoop 


4.2.1 ”安装 环境 


这 里 只 是 演示 手工 安装 Apache Hadoop 的 过 程 ， 不 作为 生产 环境 使 
用 ， 因 此 建立 四 台 VirtualBox 上 的 Linux 虚 机 ， 每 台 硬 盘 20GB， 内 存 


768MB (Hadoop 建 议 操作 系统 的 最 小 内 存 是 2GB) 。IP 与 主机 名 如 
E 


e 192.168.56.101 master 
e 192.168.56.102 slave1 
e 192.168.56.103 slave2 
e 192.168.56.104 slave3 


主机 规划 : 192.168.56.101 做 master , iB íT 
ResourceManager 进 程 。 其 他 三 台 主 机 做 slave ， 运 和 
NodeManager 进 程 。 


NameNode 和 
本 DataNode 和 


操作 系统 : CentOS release 6.4 (Final)。 
Java 版 本 : jdk1.7.0 75 (2.7 及 其 以 后 版 本 的 Hadoop 需 要 Java 7) o 
Hadoop 版 本 : hadoop-2.7.2。 


4.2.2 ”安装 前 准备 
第 1、2 步 使 用 root 用 户 执行 ，3、4 步 使 用 grid 用 户 执 行 。 
1. 分 别 在 四 人 台 机 器 上 建立 grid 用 户 


# 新 建 用 户 grid， 主 目录 为 /home/grid， 如 果 该 目录 不 存在 则 建立 
useradd -d /home/grid -m grid 


# 将 grid 用 户 加 到 root 组 
usermod -a -G root 


2. 分 别 在 四 台 机 器 上 的 /etc/hosts 文 件 中 添加 如 下 内 容 ， 
用 作 域 名 解析 


192.168.56.101 master 


192.168.56.102 slave1 
192.168.56.103 slave2 
192.168.56.104 slave3 


3。 分 别 在 四 台 机 器 上 安装 java (安装 包 已 经 下 载 到 grid 用 
户主 目录 ) 


# 进入 grid 用 户 的 主 目 录 
(610 ~ 


# 解压 缩 
tar -zxvf jdk-7u75-linux-x64.tar.gz 


4。 配 置 ssh 免 密码 


Hadoop 集 群 中 的 各 个 节点 主机 需要 相互 通信 ， 因 此 DataNode 与 
NameNode 之 间 要 能 免 密码 ssh， 这 里 配置 了 任意 两 台 机 器 都 免 密 码 。 


(1) 分 别 在 四 台 机 器 上 生成 密 钥 对 


# 进入 grid 用 户 的 主 目录 
cd ~ 


# 生成 密 钥 对 


ssh-keygen -t rsa 


然后 一 路 按 回 车 键 。 


(2) 在 master 上 执行 


# 进入 .ssh 
cd ~/.ssh/ 


# 把 本 机 的 公 钥 追加 到 自身 的 ~~/ .ssh/authorized_keys 文 件 里 
ssh-copy-id 192.168.56.101 


4 将 authorized_keys 文 件 复制 到 第 二 台 主 机 


scp /home/grid/.ssh/authorized keys 
192.168.56.102:/home/grid/.ssh/ 


(3) 在 slave1 上 执行 


cd ~/.ssh/ 

ssh-copy-id 192.168.56.102 

scp /home/grid/.ssh/authorized_keys 
192.168.56.103:/home/grid/.ssh/ 


(4) 在 slave2 上 执行 


cd ~/.ssh/ 

ssh-copy-id 192.168.56.103 

scp /home/grid/.ssh/authorized keys 
192.168.56.104: /home/grid/.ssh/ 


(5) 在 slave3 上 执行 


cd ~/.ssh/ 
ssh-copy-id 192.168.56.104 


主机 

scp /home/grid/.ssh/authorized keys 
192.168.56.101:/home/grid/.ssh/ 

scp /home/grid/.ssh/authorized keys 
192.168.56.102:/home/grid/.ssh/ 

scp /home/grid/.ssh/authorized_keys 
192.168.56.103:/home/grid/.ssh/ 


至 此 ’ Se AS ssh Amo 
4.2.3 ”安装 配置 Hadoop 


以 下 的 操作 均 使 用 grid 用 户 在 master 主 机 上 执行 。 


1. 安装 hadoop (安装 包 已 经 下 载 到 grid 用 户主 目录 ) 


Gd 一 
tar -zxvf hadoop-2.7.2.tar.gz 


2。 建 立 目录 


cd ~/hadoop-2.7.2 
mkdir tmp 

mkdir hdfs 

mkdir hdfs/data 
mkdir hdfs/name 


3. 修改 配置 文件 


编辑 人 /hadoop-2.7.2/etchadoop/core-site.xml 文 件 ， 添 加 如 下 内 


«configuration» 

«property» 

<name>fs .defaultFS</name> 
<value>hdfs://192.168.56.101:9000</value> 
</property> 

<property> 

<name>hadoop.tmp.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/tmp</value> 
</property> 

<property> 
<name>io.file.buffer.size</name> 
<value>131072</value> 

</property> 

</configuration> 


说 明 : core-site.xml 是 Hadoop 的 全 局 配置 文件 ， 这 里 配置 了 三 个 
参数 。 


。 fs.defaultFS: 默认 文件 系统 的 名 称 ，URI 形 式 ， 默 认 是 本 地 文 
件 系 统 。 

。 hadoop.tmp.dir: Hadoop 的 临时 目录 ， 其 他 目录 会 基于 此 路 径 ， 
是 本 地 目录 。 

。 io.file.buffersize: 在 读 写 文件 时 使 用 的 缓存 大 小 。 这 个 大 小 应 
该 是 内 存 Page 的 倍数 。 


编辑 人 /hadoop-2.7.2/etchadoop/hdfs-site.xml 文 件 ， 添 加 如 下 内 


«configuration» 

«property» 

<name>dfs.namenode.name.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/name</value> 
</property> 

<property> 

<name>dfs.datanode.data.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/data</value> 
</property> 

<property> 

<name>dfs.replication</name> 

<value>3</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address</name> 
<value>192.168.56.101:9001</value> 

</property> 

<property> 
<name>dfs.namenode.servicerpc-address</name> 
<value>192.168.56.101:10000</value> 

</property> 

<property> 

<name>dfs.webhdfs.enabled</name> 
<value>true</value> 

</property> 

</configuration> 


说 明 : hdfs-site.xml 是 HDFS 的 配置 文件 ， 这 里 配置 了 6 个 参数 。 


e dfs.namenode.name.dir: 本 地 磁盘 目录 ， 用 于 NamaNode 人 存储 
fsimage 文 件 。 可 以 是 按 逗 号 分 隔 的 目录 列表 ，fsimage 文 件 会 存 
储 在 每 个 目录 中 ， 宛 余 安全 。 这 里 多 个 目录 设 定 ， 最 好 在 多 个 
磁盘 ， 如 果 其 中 一 个 磁盘 故障 ， 会 跳 过 坏 磁盘 ， 不 会 导致 系统 
停 服 。 如 果 配 置 了 HA， 建 议 仅 设置 一 个 。 如 果 特 别 在 意 安全 ， 
可 以 设置 2 个 。 
dfs.datanode.data.dir: 本 地 磁盘 目录 ，HDFS 数 据 存 储 数据 块 的 
地 方 。 可 以 是 喜 号 分 隔 的 目录 列表 ， 典 型 的 ， 每 个 目录 在 不 同 
的 磁盘 。 这 些 目录 被 轮流 使 用 ， 一 个 块 存 储 在 这 个 目录 ， 下 一 
个 块 存 储 在 下 一 个 目录 ， 依 次 循环 。 每 个 块 在 同一 个 机 器 上 仪 
存储 一 份 。 不 存在 的 目录 被 忽 略 。 必 须 创 建文 件 夹 ， 否 则 祖 视 
为 不 存在 。 

dfs.replication: 数据 块 副本 数 。 此 值 可 以 在 创建 文件 时 设 定 ， 
客户 端 可 以 设 定 ， 也 可 以 在 命令 行 修改 。 不 同文 件 可 以 有 不 同 
的 副本 数 。 默 认 值 用 于 未 指定 时 。 
dfs.namenode.secondary.http-address: SecondaryNameNode 的 http 
服务 地 址 。 如 果 疹 口 设 置 为 0， 服 务 将 随机 选择 一 个 空 亲 端口 。 
使 用 了 HA 后 ， 就 不 再 使 用 SecondaryNameNode 了 。 
dfs.namenode.servicerpc-address: HDFS 服 务 通信 的 RPC 地 址 。 
如 果 设 置 该 值 ， 备 份 结 点 、 数 据 结 点 和 其 他 服务 将 会 连接 到 指 
定 地 址 。 注 意 ， 该 参数 必须 设置 。 

dfs.webhdfs.enabled: 指定 是 否 在 NameNode 和 DataNode 上 开启 
WebHDFS 功 能 。 


编辑 人 /hadoop-2.7.2/etc/hadoop/yarn-site.xml 文 件 ， 添 加 如 下 内 
合 。 


«configuration» 
«property» 
<name>yarn.nodemanager .aux-services</name> 


<value>mapreduce_shuffle</value> 

</property> 

<property> 

<name>yarn.nodemanager . aux- 
services.mapreduce.shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 
</property> 

<property> 

<name>yarn.resourcemanager .address</name> 
<value>192.168.56.101:8032</value> 

</property> 

<property> 
<name>yarn.resourcemanager .scheduler .address</name> 
<value>192.168.56.101:8030</value> 

</property> 

<property> 
<name>yarn.resourcemanager.resource-tracker .address</name> 
<value>192.168.56.101:8031</value> 

</property> 

<property> 

<name>yarn.resourcemanager .admin.address</name> 
<value>192.168.56.101:8033</value> 

</property> 

<property> 

<name>yarn.resourcemanager .webapp.address</name> 
<value>192.168.56.101:8088</value> 

</property> 

<property> 

<name>yarn.nodemanager .resource.memory-mb</name> 
<value>1024</value> 

</property> 

</configuration> 


说 明 : yarn-site.xml 是 YARN 的 配置 文件 ， 这 里 配置 了 8 个 参数 。 


。 yarn.nodemanager.aux-services : NodeManager 上 运行 的 附属 服 


务 。 需 配置 成 mapreduce_shuffle， 才 可 运行 MapReduce 程 序 。 


e yarn.nodemanager.aux-services.mapreduce.shuffle.class: 对 应 参考 


yarn.nodemanager. aux-serviceso 


* yarn. as as address: ResourceManager 对 客户 端 暴 露 的 
地 址 。 客 户 端 通过 该 地 址 向 RM 提交 应 用 程序 ， 杀 和 死 应 用 程序 


等 。 


e yarn.resourcemanager.scheduleraddress : 调度 器 地 址 ， 是 
ResourceManager 对 ApplicationMaster 3 #8 的 访问 地 址 。 
ApplicationMaster 通 过 该 地 址 向 RM 申请 资源 、 释 放 资 源 等 。 

e yarn.resourcemanager.resource-tracker.address : 人 
对 NodeManager 暴 露 的 地 址 。NodeManager 通 过 该 地 址 向 RM 汇 
报 心 跳 ， 领 取 任 务 等 。 

。 yarn.resourcemanager.admin.address : ResourceManager 对 管理 员 
暴露 的 访问 地 址 。 管 理 员 通过 该 地 址 向 RM 发 送 管理 命令 等 。 

e yarn. ee webapp.address: ResourceManage X 7^ Web 
UI 地 址 。 用 户 可 通过 该 地 址 在 浏览 器 中 查看 集群 各 类 信息 。 

。 yarn.nodemanager.resource.memory-mb : NodeManage 总 的 可 用 
物理 内 存 ， 不 能 小 于 1024。 注 意 ， 该 参数 一 旦 设置 ， 整 个 运行 

过 程 中 不 可 动态 修改 。 


编辑 ~/hadoop-2.7.2/etchadoop/mapred-site.xml 文 件 ， 添 加 如 下 内 


«configuration» 

«property» 
<name>mapreduce. framework .name</name> 
<value>yarn</value> 

</property> 

<property> 

<name>mapreduce. jobhistory.address</name> 
<value>192.168.56.101:10020</value> 
</property> 

<property> 

<name>mapreduce. jobhistory.webapp.address</name> 
<value>192.168.56.101:19888</value> 
</property> 

</configuration> 


说 明 : mapred-site.xml 是 MapReduce 的 配置 文件 ， 这 里 配置 了 三 
个 参数 。 


mapreduce.framework.name : i Æ MapReduce BY #4 f7 4E 2 A 
yarno 

mapreduce.jobhistory.address: MapReduce 历 史 服 务 器 的 地 址 。 
mapreduce.jobhistory.webapp.address : MapReduce 历 史 服 务 器 
Web UI 地 址 。 


编辑 ~/hadoop-2.7.2/etc/hadoop/slaves 文 件 ， 添 加 如 下 内 容 。 


192 .168.56.102 
ALS .168.56.103 
192.168.56.104 


说 明 : 在 etc/hadoop/slaves 文 件 中 写 出 所 有 slave 的 主机 名 或 者 IP 地 
址 ， 每 个 一 行 。Hadoop 辅 助 脚本 使 用 etc/hadoop/slaves 文 件 一 次 在 多 个 
主机 上 运行 命令 。 这 些 脚 本 并 不 使 用 任何 基于 Java 的 Hadoop 配 置 。 为 
了 正常 使 用 ， 运 行 Hadoop 的 用 户 各 在 服务 器 之 间 需 要 ssh 信 任 ( 即 安装 
前 配置 的 ssh 免 密码 ) o 

编辑 ~~/hadoop-2.7.2/etc/hadoop/hadoop-env.sh 文 件 ， 修 改 如 下 内 


ma 


合 。 
export JAVA HOME-/home/grid/jdk1.7.0 75 


说 明 : 使 用 etc/hadoop/hadoop-env.sh 脚 本 设置 Hadoop HDFS/ri & 
进程 的 站 点 特定 环境 变量 ， 至 少 需 要 指定 JAVA_HOME， 以 保证 在 每 
一 个 远程 节点 上 正确 定义 。 


编辑 ~/hadoop-2.7.2/etc/hadoop/yarn-env.sh 文 件 ， 修 改 如 下 内 容 。 


export JAVA HOME-/home/grid/jdk1.7.0 75 


说 明 : 使 用 etc/hadoop/yarn-env.sh 脚 本 设置 Hadoop YARN [zi & 3t 
程 的 站 点 特定 环境 变量 ， 至 少 需要 指定 JAVA_HOME ， 以 保证 在 每 一 


个 远程 节点 上 正确 定义 。 


4。 将 hadoop 主 目录 复制 到 各 个 从 服务 器 上 


scp -r ./hadoop-2.7.2 192.168.56.102:/home/grid/ 
scp -r ./hadoop-2.7.2 192.168.56.103:/home/grid/ 
scp -r ./hadoop-2.7.2 192.168.56.104:/home/grid/ 


424 ”安装 后 配置 


使 用 root 用 户 分 别 在 四 人 台 机 器 上 的 /etc/profile 文 件 中 添加 如 下 环境 


Em 
Eo 


Ka 


JN 


export JAVA HOME-/home/grid/jdk1.7.0 75 

export 

CLASSPATH-.:$JAVA HOME/jre/lib/rt.jar:$JAVA HOME/lib/dt.jar:$ 
JAVA HOME/lib/tools.jar 

export HADOOP HOME-/home/grid/hadoop-2.7.2 

export HADOOP COMMON HOME-S$HADOOP HOME 

export HADOOP HDFS HOME-$HADOOP HOME 

export HADOOP MAPRED HOME-$HADOOP HOME 

export HADOOP YARN HOME-$HADOOP HOME 

export HADOOP CONF DIR-$HADOOP HOME/etc/hadoop 

export 

PATH=$PATH : $JAVA_HOME/bin : $HADOOP_HOME/bin: $HADOOP_HOME/sbin: 
S$SHADOOP HOME/lib 

export HADOOP COMMON LIB NATIVE DIR-$HADOOP HOME/lib/native 
export HADOOP OPTS-"-Djava.library.path-$HADOOP HOME/lib" 
export LD LIBRARY PATH-$HADOOP HOME/lib/native 


使 环境 变量 生效 。 
source /etc/profile 


4.2.5 ”初始 化 及 运行 
以 下 的 操作 均 使 用 grid 用 户 在 master 主 机 上 执行 。 


# 格式 化 HDFS 


hdfs namenode -format 


看 到 输出 中 出 现 “INFO common.Storage: Storage 
directory/home/grid/hadoop-2.7.2/hdfs/name has been successfully 


formatted.” 信 息 ， 则 表明 格式 化 成 功 。 


# 启动 HDFS 
start-dfs.sh 


# 启动 YARN 
start-yarn.sh 


执行 成 功 后 ， 使 用 jps 命 令 查看 主 节点 Java 进 程 ， 可 以 看 到 主 节点 
上 启动 了 NameNode、 SecondaryNameNode、 ResourceManager 守 护 进 
程 ， 如 下 所 示 。 


[grid@master hadoop]$ jps 
7194 Jps 

6916 ResourceManager 

6757 SecondaryNameNode 
6546 NameNode 


查看 从 节点 Java 进 程 ， 可 以 看 到 从 节点 上 启动 了 DataNode、 
NodeManager 守 护 进 程 ， 如 下 所 示 。 


[grid@slave1 ~]$ jps 
1385 DataNode 

1506 Jps 

1470 NodeManager 


通过 Web 接 口 查 看 NameNode， 如 图 4-1 所 示 。 


e c 192.168.17.210:50070/df 


图 4-1 Hadoop Web 界 面 


= Itt, Apache Hadoop 已 经 安装 完成 ， 这 个 安装 只 有 HDFS 、 
YARN、MapReduce 等 基本 组 件 ， 不 包含 Ed 的 Hadoop 组 件 。 如 
Hive、HBase、Spark 等 其 他 工具 ， 需 要 在 此 基础 上 手工 安 

。 在 4.4 节 安装 CDH 时 会 看 到 ， 含 了 大 部 分 Hadoop 生 态 圈 提 
供 的 服务 (5.7.0 包 含 21 个 服务 ) ， 安 装 时 可 以 配置 所 需 的 服务 ， 安 装 
后 也 可 以 使 用 图 形 化 的 控制 台 ea ees ; ABP RET RAN 
方便 。 


4.3 ”配置 HDFS Federation 


HDFS Federation 是 Hadoop-0.23.0 版 本 新 增 的 功能 ， 是 为 解决 
HDFS 单 点 故障 而 提出 的 NameNode 水 平 扩 展 方案 。 该 方案 允许 HDFS 
创建 多 个 namespace 以 提高 集群 的 扩展 性 和 隔离 性 。 本 节 主 要 介绍 了 
HDFS Federation 的 原理 和 配置 。 


1. HDFS 的 两 层 结 构 


如 图 4-2 所 示 ，HDFS 主 要 包含 两 层 结 构 。 
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图 4-2 ”HDFS 的 两 层 结构 


。 命名 空间 


口 


由 目录 、 文 件 和 数据 块 组 成 ， 支 持 所 有 与 命名 空间 相关 的 文件 系 
统 操 作 ， 如 创建 、 删 除 、 修 改 和 列 出 文件 或 目录 。 


。 数据 块 存储 服务 


由 数据 块 管理 和 存储 两 部 分 组 成 。 数 据 块 管理 (在 NameNode 中 
执行 ) 主要 功能 包括 : 通过 节点 注册 和 周期 性 的 心跳 ， 维 护 集群 中 
DataNode 的 成 员 关 系 ; 处 理 块 报告 ， 并 维护 数据 块 的 位 置 ; 支持 创 
建 、 删 除 、 获 取 块 的 位 置 等 数据 块 相关 的 操作 ;管理 块 复制 。 存 储 则 
是 DataNodes 提 供 的 功能 ， 它 在 本 地 文件 系统 存储 实际 的 数据 块 并 允许 
针对 数据 块 的 读 瑟 访问 。 


早期 HDFS 架 构 只 允许 整个 集群 中 存在 一 个 命名 空间 ， 而 该 命名 
空间 被 仅 有 的 一 个 NameNode 管 理 。 这 个 架构 使 得 HDFS 非 常 容易 实 
M, 但 是 ， 这 种 设计 导致 了 很 多 局 限 。 


2. HDFS 局 限 性 


。 块 存储 和 命名 空间 高 耦合 


NameNode 中 的 命名 空间 和 块 管理 的 结合 使 得 这 两 层 架 构 耦 合 在 
一 起 ， 难 以 让 其 他 可 能 的 NameNode 实 现 方案 直接 使 用 块 存 储 。 


。 NameNode 不 易 扩展 

HDFS 的 底层 存储 是 可 以 水 平 扩 展 的 (底层 存储 指 的 是 
DataNodes， 当 集群 存储 空间 不 够 时 ， 可 简单 地 添加 机 器 以 进行 水 平 扩 
展 ) ， 但 命名 空间 不 可 以 。 当 前 的 命名 空间 只 能 存放 在 单个 
NameNode 上 ， 而 NameNode 在 内 存 中 存储 了 整个 分 布 式 文件 系统 中 的 
元 数据 信息 ， 这 限制 了 集群 中 数据 块 ， 文 件 和 目录 的 数目 。 

。 性 能 

文件 操作 的 性 能 受制 于 单个 NameNode 的 吞吐 量 。 

。 隔离 性 

现在 大 部 分 集群 都 是 共享 的 ， 每 天 有 来 自 不 同 部 门 的 不 同 用 户 提 
交 作 业 。 单 个 NameNode 难 以 提供 隔离 性 ， 即 : 某 个 用 户 提 交 的 负载 
很 大 的 作业 会 减 慢 其 他 用 户 的 作业 执行 ， 单 一 的 NameNode 无 法 按照 
应 用 类 别 将 不 同 作 业 分 派 到 不 同 NameNode 上 。 

3。Federation 架 构 


Federation 架 构 如 图 4-3 所 示 。 
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图 4-3 ”Federation 架 构 


采用 Federation 的 最 主要 原因 是 实现 简单 ，Federation 能 够 快速 地 
解决 大 部 分 单 NameNode 的 问题 。Federation 主 要 改变 是 在 DataNode、 
配置 和 工具 ， 而 NameNode 本 身 的 改动 非常 少 ， 这 样 NameNode 原 先 的 
鲁 棒 性 不 会 受到 影响 ， 也 使 得 该 方案 与 之 前 的 HDFS 版 本 兼容 。 


为 了 水 平 扩 展 NameNode，federation 使 用 了 多 个 独立 的 NameNode 
及 命名 空间 。 这 些 NameNode 之 间 是 分 离 的 ， 也 就 是 说 ， 它 们 之 间 相 
互 独立 且 不 需要 互相 协调 ,各自 分工， 管理 自己 的 区 域 。 分 布 式 的 
DataNode 被 用 作 通 用 的 数据 块 存储 设备 。 每 个 DataNode 要 向 集群 中 所 
有 的 NameNode 注 册 ， 且 周期 性 地 向 所 有 NameNode 发 壕 心跳 和 块 报 
告 ， 并 执行 来 自 所 有 NameNode 的 命令 。 


一 个 block pool 由 属于 同一 个 命名 空间 的 数据 块 组 成 ， 每 个 
DataNode 可 能 会 存储 集群 中 所 有 block pool 的 数据 块 。 

每 个 block pool 内 部 自治 ， 也 就 是 说 各 自 管理 自己 的 block， 不 会 与 
其 他 block pool 交 流 。 一 个 NameNode 失 效 ， 不 会 影响 其 他 NameNode。 


某 个 NameNode 上 的 命名 空间 和 它 对 应 的 block pool 一 起 被 称 为 命 
名 空间 卷 。 它 是 管理 的 基本 单位 。 当 一 个 NameNode 及 命名 空间 被 删 
除 后 ， 其 所 有 DataNode 上 对 应 的 block pool 也 会 被 删除 。 当 集群 升级 
时 ， 每 个 命名 空间 卷 作为 一 个 基本 单元 进行 升级 。 

一 个 ClusterID 用 来 标识 集群 中 的 所 有 节点 。 当 一 个 NameNode 被 格 
式 化 时 ， 需 要 提供 此 ClusterID ， 或 者 自动 生成 一 个 ClusterID。 生 成 的 
ClusterID 被 用 于 集群 中 其 他 NameNodes 的 格式 化 。 


4。Federation 配 置 


现在 为 前 面 已 安装 的 Apache Hadoop 配 置 Federation ， 要 达到 以 下 
三 个 目的 : 


。 现 有 Hadoop 集 群 只 有 一 个 NameNode ， 现 在 要 增加 一 个 
NameNodeo 

。 两 个 NameNode 构 成 HDFS Federations 

。 不 重启 现 有 集群 ， 不 影响 数据 访问 。 


(1) 现 有 环境 


5 人 台 CentOS release 6.4 虚 拟 机 ， 在 各 个 主机 的 /etc/hosts 文 件 中 都 配 
置 了 域名 解析 ，IP 地 址 和 主机 名 如 下 : 


e 192.168.56.101 master 
e 192.168.56.102 slave1 
e 192.168.56.103 slave2 
e 192.168.56.104 slave3 
e 192.168.56.105 master2 


其 中 master、slavel、slave2、slave3 是 我 们 刚才 安装 的 Hadoop 集 群 
节点 ，master2 是 新 增 的 一 台 * 干 净 ” 的 机 器 ， 已 经 配置 好 免 密码 ssh， 将 
作为 新 增 的 NameNodeo 


Hadoop 版 本 : hadoop 2.7.2。 


现 有 配置 : master 作为 Hadoop Æ # 的 NameNode 、 
SecondaryNameNode、 ResourceManager; slavel1、 slave2、 slave3 作 为 


Hadoop 集 群 的 DataNode、NodeManager。 
(2) 配置 步骤 


501 编辑 master 上 的 hdfs-site.xml 文 件 ， 修 改 后 的 文件 内 容 如 
下 所 示 。 


<?xml version="1.0" encoding="utf-8"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xs1l"?> 
<configuration> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/name</value> 
</property> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>file:/home/grid/hadoop-2.7.2/hdfs/data</value> 
</property> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
</property> 
<property> 
<name>dfs.webhdfs.enabled</name> 
<value>true</value> 
</property> 


<!-- 新 增 属性 --> 

<!-- 配置 两 个 命名 空间 ns1 和 ns2 --> 

«property» 
<name>dfs.nameservices</name> 


«value»nsi,ns2«/value» 
</property> 


<!-- 配置 ns1 的 属性 --> 

<property> 
<name>dfs.namenode.rpc-address.nsi</name> 
<value>master :9000</value> 

</property> 

<property> 
<name>dfs.namenode.http-address.nsi</name> 
<value>master :50070</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address.ns1i</name> 
<value>master :9001</value> 

</property> 


<!-- 配置 ns2 的 属性 --> 

<property> 
<name>dfs.namenode.rpc-address.ns2</name> 
<value>master2:9000</value> 

</property> 

<property> 
<name>dfs.namenode.http-address.ns2</name> 
<value>master2:50070</value> 

</property> 

<property> 
<name>dfs.namenode.secondary.http-address.ns2</name> 
<value>master2:9001</value> 

</property> 

</configuration> 


步骤 02 复制 master 上 的 hdfs-site.xml 文 件 到 集群 上 的 其 他 节点 。 


scp hdfs-site.xml slavei1:/home/grid/hadoop-2.7.2/etc/hadoop/ 
scp hdfs-site.xml slave2:/home/grid/hadoop-2.7.2/etc/hadoop/ 
scp hdfs-site.xml slave3:/home/grid/hadoop-2.7.2/etc/hadoop/ 


步骤 03 4 将 Java 目 录 、Hadoop 目 录 、 环 境 变 量 文件 从 master 复 制 到 


master2o 


scp -rp /home/grid/hadoop-2.7.2 master2:/home/grid/ 
scp -rp /home/grid/jdk1.7.0 75 master2:/home/grid/ 


# 用 root 执行 
scp -p /etc/profile.d/* master2:/etc/profile.d/ 


步骤 04 启动 新 的 NameNode、 SecondaryNameNodes 


# 在 master2 上 执行 

source /etc/profile 

SHADOOP HOME/sbin/hadoop-daemon.sh start namenode 

S$HADOOP HOME/sbin/hadoop-daemon.sh start secondarynamenode 


执行 成 功 后 ， 使 用 jps 命 令 查 看 master2 上 的 Java 进 程 ， 可 以 看 到 启 
动 了 NameNode、SecondaryNameNode 进 程 ， 如 下 所 示 。 


[grid@master2 ~]$ jps 
2285 Jps 

2244 SecondaryNameNode 
2154 eNode 


步骤 05 4 刷新 DataNode 收 集 新 添加 的 NameNode， 在 集群 中 任意 一 
台 机 器 上 执行 均 可 。 


$HADOOP HOME/bin/hdfs dfsadmin -refreshNamenodes slave1:50020 
$HADOOP HOME/bin/hdfs dfsadmin -refreshNamenodes slave2:50020 
$HADOOP HOME/bin/hdfs dfsadmin -refreshNamenodes slave3:50020 


至 此 ，HDFS Federation 配 置 完成 ， 从 Web 查 看 两 个 NameNode 的 状 
态 分 别 如 图 4-4 和 图 4-5 所 示 。 从 图 中 可 以 看 到 两 个 NameNode 的 
ClusterID 相 同 。 


OD Namenode information X |i: Namenode information x | EN 
和 | 192.168.56.101:50070/cfsheslth.htmistab-overview 


Datanodes Datanode Volume Failures Snapshot Startup Progress Utilibes 


Overview) m: 

Started: Thu May 05 09:59:20 CST 2016 

Version: 2.7.2, rUnknown 

Compiled: 2016-04-27T03:00Z by zeppelin from Unknown 
Block Pool ID: BP-1811414180-192.168.56.101-1462339981960 
Summary 


图 4-4 ”第 一 个 NameNode 


_ Namenode information 3 | 2 Namenode information x [2 
@ [E 192.168.56.104:50070 «heat b-ov 


Hadoop Overview — Datanodes — Datanode Volume Failures Snapshot Startup Progress — Ulilities 


Overview [mae 


Started: Thu May 05 10:13:40 CST 2016 
Version: 2.7.2, runknown 
Compiled: 2016-04-27T03:00Z by zeppelin from Unknown 


Cluster ID: CID-f1476944-3a65-4e59-bd91-14290210c28a 


Block Pool ID: BP-1811414180-192.168.56.101-1462339981960 


Summary 


图 4-5 “第 二 个 NameNode 


44 离线 安装 CDH 及 其 所 需 的 服务 


在 后 面 的 数据 仓库 实践 中 会 用 到 Sqoop、Hive、Oozie、Impala、 
Hue 等 工具 ， 出 于 简单 部 署 的 原则 ， 这 里 选择 CDH 5.7.0， 并 启用 相关 


服务 。 
441 CDH 安 装 概述 


CDH 的 全 称 是 Cloudera's Distribution Including Apache Hadoop, Œ 
Cloudera 公 司 的 Hadoop 发 行 版 本 。 有 三 种 方式 安装 CDH: 


。 Path A: 通过 Cloudera Manager 自 动 安装 。 
。 Path B: 使 用 Cloudera Manager Parcels 或 Packages 安 装 。 
。 Path C: 使 用 Cloudera Manager Tarballs 手 工 安装 。 


不 同方 式 的 安装 步骤 总 结 如 表 4-1 所 示 。 


表 4-1 CDH 的 三 种 安装 方式 


步骤 1: 安装 JDK 
Cloudera Manager 
Server 、 Management 
Service 和 CDH 需要 安 
装 JDK 

步骤 2: 设置 数据 库 
Cloudera Manager Server、 
Cloudera Management 
Service 和 某 些 CDH 的 
可 选 服务 需要 安装 、 配 
HRA ZANE 


步骤 3: 安装 Cloudera 
Manager 服务 器 

在 一 台 主 机 上 安装 和 启 
动 Cloudera Manager 服 
务 器 


步骤 4: 安装 Cloudera 
Manager 代理 

在 所 有 主机 上 安装 并 启 
动 Cloudera Manager 代 


步骤 5: 安装 CDH 和 服 
务 

在 所 有 主机 上 安装 
CDH 及 其 服务 


步骤 6: 建立 、 配 置 并 
HZ) CDH 和 服务 
在 所 有 主机 上 配置 并 启 
动 CDH 及 其 服务 


有 两 个 选项 ; 


(1) 使 用 Cloudera Manager 安装 程序 在 集群 中 的 所 有 主机 的 /usr/Java 下 安装 一 


个 Oracle JDK 的 支持 版 本 。 


(2) 使 用 命令 行 在 所 有 主机 上 安装 一 个 Oracle IDK 的 支持 版 本 ， 并 且 设 置 
JAVA_HOME 环境 变量 为 JDK 的 安装 目录 


有 两 个 选项 : 


(1) 使 用 Cloudera Manager 安装 程序 安装 、 配 置 和 启动 一 个 内 檬 的 PostgreSQL 


(2) 使 用 诸如 yum 这 样 的 命令 行 包 安装 工具 安装 、 配 置 和 启动 数据 库 


使 用 Cloudera Manager 
需要 该 主机 的 sudo 权限 
并 能 访问 互联 网 


使 用 Cloudera Manager 
安装 向 导 在 所 有 主机 上 


使 用 Cloudera Manager 
安装 向 导 安 装 CDH 及 其 
服务 


使 用 Cloudera Manager 
安装 向 导 给 主机 赋予 角 
色 并 配置 集群 。 许 多 配 
置 是 自动 的 


使 用 Linux 包 安 装 命令 
(如 yum) 安装 Cloudera 
Manager 服务 器 。 

修改 数据 库 属性 。 

使 用 service 命令 启动 
Cloudera Manager 服务 器 
有 两 个 选项 ; 

(1) 使 用 Linux 包 安 装 
命令 (如 yum) 在 所 有 
主机 上 安装 Cloudera 
Manager 代理 。 

(2) 使 用 Cloudera 
Manager 安装 向 导 在 所 
有 主机 上 安装 代理 

有 两 个 选项 : 

(1) 使 用 Cloudera 
Manager 安装 向 导 安 装 
CDH 及 其 服务 。 

(2) 使 用 Linux 包 安 装 命 
令 ( 如 yum) 在 所 有 主 
机 上 安装 CDH 及 其 服务 
使 用 Cloudera Manager 
安装 向 导 给 主机 授予 角 
色 并 配置 集群 。 许 多 配 
置 是 自动 的 


使 用 Linux 命令 解 包 ， 
并 且 使 用 service 命令 
启动 服务 


使 用 Linux 命令 在 所 有 
主机 上 解 包 并 启动 代 
理 


使 用 Linux 命令 在 所 有 
主机 上 解 包 ， 并 使 用 
service 命令 启动 CDH 


及 其 服务 


使 用 Cloudera Manager 
角色 并 配置 集群 。 许 
多 配置 是 自动 的 。 也 
可 以 使 用 Cloudera 
Manager API 管理 一 个 
集群 ， 这 对 于 脚本 预 
配置 部 警 是 很 有 用 的 


4.4.2 ”安装 环境 


硬件 配置 : 每 台 主 机 CPU4 核 、 内 存 8GB、 硬 盘 100GB。1IP 与 主机 
名 如 下 : 


e 172.16.1.101 cdh1 
。 172.16.1.102 cdh2 
。 172.16.1.103 cdh3 
。 172.16.1.104 cdh4 


各 软件 版 本 如 表 4-2 所 示 。 


表 4-2 ”安装 CDH 所 需 软件 的 版 本 


软件 名 称 版 本 
操作 系统 CentOS release 6.4 (Final) 64 位 


JDK 1.7.0 80 
数据 库 MySQL 5.6.14 
JDBC MySQL Connector Java 5.1.38 


Cloudera Manager 5.7.0 


CDH 5.7.0 


44.3 ”安装 配置 


1. 安装 前 准备 (都 是 使 用 root 用 户 在 集群 中 的 所 有 4 台 主 
机 配置 ) 


。 从 以 下 地 址 下 载 所 需要 的 安装 文件 


http://archive.cloudera.com/cm5/cm/5/cloudera-manager -el6- 
cm5.7.0 x86 64.tar.gz 
http://archive.cloudera.com/cdh5/parcels/5.7/CDH-5.7.0- 
1.cdh5.7.0.p0.45-e16. parcel 
http://archive.cloudera.com/cdh5/parcels/5.7/CDH-5.7.0- 


1.cdh5.7.0.p0.45-el6.parcel.shai 
http://archive.cloudera.com/cdh5/parcels/5.7/manifest.json 


。 使 用 下 面 的 命令 检查 OS 依赖 包 ，xxxx 换 成 包 名 


rpm -qa | grep xxxx 


以 下 这 些 包 必 须 安装 


chkconfig 

python (2.6 required for CDH 5) 
bind-utils 

psmisc 

libxslt 

zlib 

sqlite 
cyrus-sasl-plain 
cyrus-sasl-gssapi 
fuse 

portmap (rpcbind) 
fuse-libs 
redhat-lsb 


。 配置 域名 解析 


vi /etc/hosts 


添加 如 下 4 行内 容 : 


172.16.1.101 cdhi 
172.16.1.102 cdh2 
172.16.1.103 cdh3 
172.16.1.104 cdh4 


。 安装 JDK 


CDH5 推 荐 的 JDK 版 本 是 1.7.0 67. 1.7.0 75. 1.7.0 80， 这 里 安装 
1.7.0.80。 注 意 : 所 有 主机 要 安装 相同 版 本 的 JDK; 安装 目录 


7J/usr/java/jdk-versiono 


mkdir /usr/java/ 

mv jdk-7u80-linux-x64.tar.gz /usr/java/ 
cd /usr/java/ 

tar -zxvf jdk-7u80-linux-x64.tar.gz 
chown -R root:root jdki1.7.0 80/ 

vi /etc/profile.d/java.sh 


添加 如 F34 TA 容 


export JAVA HOME-/usr/java/jdk1.7.0 80 
export CLASSPATH-.:$JAVA HOME/jre/1lib/*:$JAVA HOME/lib/* 
export PATH-$PATH:$JAVA HOME/bin 


使 环境 变量 生效 : 
source /etc/profile.d/java.sh 


。 安装 、 配 置 并 局 动 NTP 服 务 


yum install ntp 
chkconfig ntpd on 
ntpdate -u 202.112.29.82 
vi /etc/ntp.conf 


添加 如 下 81 TA 容 


driftfile /var/lib/ntp/drift 

restrict default kod nomodify notrap nopeer noquery 
restrict -6 default kod nomodify notrap nopeer noquery 
restrict 127.0.0.1 

restrict -6 ::1 

server 202.112.29.82 


includefile /etc/ntp/crypto/pw 
keys /etc/ntp/keys 


启动 NTP 服 务 : 
Service ntpd start 


。 建立 CM 用 户 


useradd --system --home=/opt/cm-5.7.0/run/cloudera-scm-server 
--no-create-home -- 

shell-/bin/false --comment "Cloudera SCM User" cloudera-scm 
usermod -a -G root cloudera-scm 

echo USER=\"cloudera-scm\" >> /etc/default/cloudera-scm-agent 
echo "Defaults secure path = /sbin:/bin:/usr/sbin:/usr/bin" 
>> /etc/sudoers 


。 安装 配置 MySQL 数 据 库 〈 为 了 后 面 配置 方便 ， 这 里 每 个 主机 都 


RT) 


M 


rpm -ivh MySQL-5.6.14-1.e16.x86 64.rpm 
vi /etc/profile.d/mysql.sh 


添加 如 下 2 行内 容 : 


export MYSQL HOME-/home/mysql/mysql-5.6.14 
export PATH=$PATH: $MYSQL_HOME/bin 


使 环境 变量 生效 : 


source /etc/profile.d/mysql.sh 


修改 root 密 码 : 


mysqladmin -u root password 


编辑 配置 文件 : 


vi /etc/my.cnf 


内 容 如 下 : 


[mysqld] 

transaction-isolation = READ-COMMITTED 
log bin-/data/mysql binary log 

binlog format - mixed 

innodb flush log at trx commit = 2 
innodb flush method - O DIRECT 

key buffer - 16M 

key buffer size - 32M 

max allowed packet - 32M 

thread stack - 256K 


thread cache size - 64 
query cache limit - 8M 
query cache size - 64M 
query cache type - 1 
max connections - 550 


read buffer size - 2M 

read rnd buffer size - 16M 
sort buffer size - 8M 

join buffer size - 8M 

innodb flush log at trx commit = 2 
innodb log buffer size - 64M 
innodb buffer pool size - 4G 
innodb thread concurrency - 8 
innodb log file size - 512M 
[mysqld safe] 
log-error-/data/mysqld.err 
pid-file-/data/mysqld.pid 

sql mode-STRICT ALL TABLES 


添加 开机 局 动 : 


chkconfig mysql on 


启动 MySQL : 


service mysql restart 


根据 需要 建立 元 数据 库 : 


mysql -u root -p -e "create database hive DEFAULT CHARACTER 
SET utf8;create database rman 

DEFAULT CHARACTER SET utf8;create database oozie DEFAULT 
CHARACTER SET utf8;grant all on *.* 

TO 'root'@'%' IDENTIFIED BY 'mypassword';" 


。 Z MySQL JDBC 驱 动 


tar -zxvf mysql-connector-java-5.1.38.tar.gz 

cp ./mysql-connector-java-5.1.38/mysql-connector-java-5.1.38- 
bin.jar /usr/share/java/mysql- 

connector-java.jar 


。 配置 免 密码 ssh (这 里 配置 了 任意 两 台 机 器 都 免 密码 ) 


分 别 在 四 人 台 机 器 上 生成 密 钥 对 : 


Go 一 
ssh-keygen -t rsa 


然后 一 路 回 车 。 
在 cdh1 上 执行 : 
cd ~/.ssh/ 


ssh-copy-id cdhi 
scp /root/.ssh/authorized keys cdh2:/root/.ssh/ 


在 cdh2 上 执行 : 


cd ~/.ssh/ 
ssh-copy-id cdh2 
scp /root/.ssh/authorized_keys cdh3:/root/.ssh/ 


在 cdh3 上 执行 : 


cd ~/.ssh/ 
ssh-copy-id cdh3 
scp /root/.ssh/authorized keys cdh4:/home/grid/.ssh/ 


在 cdh4 上 执行 : 


cd ~/.ssh/ 

ssh-copy-id cdh4 

scp /root/.ssh/authorized keys cdh1:/root/.ssh/ 
scp /root/.ssh/authorized keys cdh2:/root/.ssh/ 
scp /root/.ssh/authorized keys cdh3:/root/.ssh/ 


2。 在 cdh1 上 安装 Cloudera Manager 


tar -xzvf cloudera-manager*.tar.gz -C /opt/ 


建立 cm 数据 库 : 


/opt/cm-5.7.0/share/cmf/schema/scm prepare database.sh mysql 
cm -hlocalhost -uroot - 
pmypassword --scm-host localhost scm scm scm 


配置 cm 代理 : 


vi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.ini 


将 cm 主机 名 改 为 cdh1: 


server_host=cdh1 


将 Parcel 相 关 的 三 个 文件 复制 到 /opt/cloudera/parcel-repo: 


cp CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel 
/opt/cloudera/parcel-repo/ 

cp CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel.shai 
/opt/cloudera/parcel-repo/ 

cp manifest.json /opt/cloudera/parcel-repo/ 


改名 : 


mv /opt/cloudera/parcel-repo/CDH-5.7.0-1.cdh5.7.0.p0.45- 
el6.parcel.shai /opt/cloudera/parcel- 
repo/CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel.sha 


修改 属 主 : 


chown -R cloudera-scm:cloudera-scm /opt/cloudera/ 
chown -R cloudera-scm:cloudera-scm /opt/cm-5.7.0/ 


将 /opt/cm-5.7.0 目 录 复 制 到 其 他 三 个 主机 : 


scp -r -p /opt/cm-5.7.0 cdh2:/opt/ 
scp -r -p /opt/cm-5.7.0 cdh3:/opt/ 
scp -r -p /opt/cm-5.7.0 cdh4:/opt/ 


3。 在 每 个 主机 上 建立 /opt/cloudera/parcels 目 录 ， 并 修改 


mkdir -p /opt/cloudera/parcels 
chown cloudera-scm:cloudera-scm /opt/cloudera/parcels 


4。 在 cdh1 上 启动 cm server 


/opt/cm-5.7.0/etc/init.d/cloudera-scm-server start 


此 步骤 需要 运行 一 些 时 间 ， 用 下 面 的 命令 查看 启动 情况 : 


tail -f /opt/cm-5.7.0/log/cloudera-scm-server/cloudera-scm- 
server.log 


5。 在 所 有 主机 上 启动 cm agent 


mkdir /opt/cm-5.7.0/run/cloudera-scm-agent 

chown cloudera-scm:cloudera-scm /opt/cm-5.7.0/run/cloudera- 
scm-agent 

/opt/cm-5.7.0/etc/init.d/cloudera-scm-agent start 


6. 登录 cloudera manager 控 制 台 ， 安 装配 置 CDH5 及 其 服 
务 


打开 控制 台 http://172.16.1.101:7180/， 显 示 “ 登 录 ” 页 面 。 
欢迎 


默认 的 用 户 名 和 密码 都 是 admin， 登 录 后 进入 欢迎 页 面 。 勾 选 许可 
协议 ， 单 击 “ 继 续 ”。 
进入 版 本 说 明 页 面 ， 如 图 4-6 所 示 。 保 持 不 变 ， 单 击 “ 继 续 ”。 
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数据 集线器 试 川 版 
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图 4-6 版 本 说 明 页 面 


进入 服务 说 明 页 面 ， 单 击 “ 继 续 ”。 


进入 选择 主机 页 面 ， 如 图 4-7 所 示 。 全 选 cdhl1、cdh2、cdh3、cdh4 
四 个 主机 ， 单 击 “ 继 续 ”。 
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图 4-7 ”选择 主机 页 面 


进入 选择 存储 库 页 面 ， 保 持 不 变 ， 单 击 “ 继 续 ”。 

进入 集群 安装 页 面 ， 单 击 “ 继 续 ”。 这 一 步 会 花费 一 些 时 间 ， 进 行 
CDH5 的 安装 。 

进入 验证 页 面 ， 单 击 “ 完 成 ”。 

进入 集群 设置 页 面 ， 根 据 需要 选择 服务 ， 本 次 安装 选择 了 
HDFS, Hive. Hue, Impala, Oozie, Sqoop 2、YARN 等 几 项 服务 ， 单 
“ARE”, 

进入 自 定 义 角色 分 配 页 面 ， 保 持 不 变 ， 单 击 * 继 续 ”。 


进入 数据 库 设 置 页 面 ， 如 图 4-8 所 示 。 Hive、Reports Manager, 
Oozie Server 三 个 数据 库 主机 都 填写 cdh2 ， 数 据 库 类 型 选择 MySQL ， 数 
据 库 名 称 分 别 填 写 hive、rman 和 oozie， 这 是 我 们 在 安装 配置 MySQL 时 


建立 的 三 个 数据 库 ， 用 户 名 、 密 码 按 建 库 时 的 信息 填写 ， 测 试 连接 成 
功 后 ， 单 击 “继续 ” 
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图 4-8 数据库 设 置 页 面 


次 运行 页 面 ， 等 待 运行 完 ， 单 击 “ 继 续 ”。 
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图 4-9 Cloudera Manager 主 页 面 


至 此 ，CDH 5.7.0 安 装 完成 ， 主 机 和 角色 对 应 如 表 4-3 所 示 。 


表 4-3 CDH 服务 一 角色 一 主机 对 应 关系 


DataNode 


NameNode 


SecondaryNameNode cdh2 

Hive Hive Metastore Server cdh2 
HiveServer2 cdh2 

Hue Hue Server cdh2 
Impala Impala Catalog Server cdh2 
Impala Daemon cdhl 

cdh3 

cdh4 

Impala StateStore cdh2 

Oozie Oozie Server cdh2 


Sqoop 2 Server 


YARN JobHistory Server 


NodeManager 


ResourceManager 


4.4.4 Cloudera Manager 许 可 证 管理 


上 一 小 节 安 装 CDH 5.7.0 时 ， 在 版 本 说 明 页 面 有 三 个 选项 : 
Cloudera Express、 Cloudera Enterprise 数据 集线器 60 天 试用 版 和 
Cloudera Enterpriseo Cloudera Express 版 本 不 需要 许可 证 ， 试 用 版 使 用 
的 是 60 天 的 试用 许可 证 ; Cloudera Enterprise 需 要 许可 证 。 我 们 选择 的 
是 默认 配置 的 60 天 试用 版 。 如 果 到 了 60 天 期 限 ， 是 不 是 Cloudera 
Manager 就 完全 不 能 用 了 呢 ? 本 小 节 就 来 介绍 一 下 Cloudera Manager 的 
许可 证 管理 。 


Cloudera Enterprise， 也 就 是 所 谓 的 企业 版 有 如 下 Express 版 本 不 具 
有 的 特性 : 


支持 LDAP (Lightweight Directory Access Protocol， 轻 量 级 目录 
访问 协议 ) 和 SAML (Security Assertion Markup Language， 安 
全 声明 标记 语言 ) 身份 认证 。Cloudera Manager 可 以 依赖 内 部 数 
据 库 进行 身份 认证 ， 企 业 版 还 支持 通过 LDAP 和 SAML 等 外 部 服 
务 进行 身份 认证 。 

浏览 和 还 原配 置 历史 。 无 论 何 时 ， 当 你 改变 并 保存 了 一 系列 关 
于 服务 、 角 色 或 主机 的 配置 信息 ，Cloudera Manager 都 会 自动 保 
存 前 一 个 版 本 的 配置 和 更 改 配置 的 用 户 名 。 这 样 就 可 以 浏览 以 
前 的 配置 ， 并 且 在 需要 时 可 以 回 滚 到 以 前 的 配置 状态 。 

支持 SNMP traps 报 警 和 用 户 定制 的 报警 脚本 。 当 预制 定 阅 值 越 
界 等 情况 出 现时 ， 可 以 在 任何 时 候 向 SNMP 管 理 器 报告 错误 情 
况 ， 而 不 用 等 待 SNMP 管 理 器 的 再 次 轮 询 。 

备份 与 骨 溃 恢复 。 Cloudera Manager 企 业 版 提供 了 一 套 集 成 的 、 
易 用 的 、Hadoop 平 台 上 的 数据 保护 解决 方案 。 Cloudera 
Manager 允 许 跨 数据 中 心 的 数据 复制 ， 包 括 HDFS 里 的 数据 、 
Hive 表 中 的 数据 、Hive 元 数据 、Impala 元 数据 等 。 即 使 遇 到 一 
个 数据 中 心 都 当 掉 的 情况 ， 仍 然 可 以 保证 这 些 关 键 数 据 是 可 用 
的 。 

能 够 建立 操作 报告 。 在 企业 版 Cloudera Manager 的 报告 页 面 ， 可 
以 建立 HDFS 的 使 用 报告 ， 包 括 每 个 用 户 、 组 或 者 目录 的 文件 
数 及 数据 大 小 等 信息 ， 还 可 以 报告 MapReduce 的 操作 情况 。 

支持 Cloudera 导 航 。Cloudera 导 航 是 一 个 与 Hadoop 平 台 完全 集成 
的 数据 管理 和 安全 系统 ， 包 括 数据 的 审计 、 可 视 化 、 加 密 、 搜 
索 、 分 析 等 数据 管理 功能 。 

只 有 企业 版 支持 Rolling Restart. History and Rollback 和 Send 
Diagnostic Data 操 作 命令 。 

提供 集群 使 用 报告 。 企 业 版 Cloudera Manager 的 集群 使 用 报告 页 
面 显 示 汇 总 的 YARN 和 Impala 作 业 使 用 信息 。 报 告 还 显示 CPU、 


内 存 的 使 用 情况 ， 基 于 YARN fair 调 度 器 的 资源 分 配 情况 ， 
Impala 查 询 等 ， 可 以 配置 报告 的 时 间 范 围 。 


登录 Cloudera Manager 后 ， 选 择 “ 管 理 ”- “许可 证 ”有 菜单 ， 就 访问 到 

许可 证 页 面 。 如 果 已 经 安装 了 许可 证 ， 该 页 面 将 显示 许可 证 的 状态 
(如 当前 是 否 有 效 ) 和 许可 证 的 属 主 、 密 钥 、 过 期 时 间 等 细节 信息 。 

如 果 企 业 版 的 许可 证 过 期 ，Cloudera Manager 仍 然 可 以 使 用 ， 只 是 
企业 版 特性 将 不 可 用 。 试 用 版 许可 证 只 能 使 用 一 次 ， 当 60 天 试用 期 
满 ， 或 者 手工 结束 试用 ， 将 不 能 再 次 开启 试用 。 试 用 结束 后 ， 企 业 版 
特性 立即 不 可 用 ， 但 是 被 禁用 功能 的 相关 数据 和 配置 并 不 删除 ， 一 旦 
安装 了 企业 版 许可 证 ， 这 些 功能 会 再 次 生效 。 

在 60 天 试用 期 即将 结束 前 ，Cloudera Manager 的 登录 页 面 会 给 出 试 
用 将 要 到 期 的 提示 。 此 时 可 以 在 到 期 前 的 任意 时 间 点 ， 手 工 终 止 
Cloudera Enterprise 数 据 集线器 版 的 试用 ， 具 体操 作 步 又 如 下 : 


步骤 014 ”在 “许可 证 ”页 面 ， 单 击 “ 结 束 试 用 ”并 确认 。 
步骤 02 EB ch “Se BF” — “Cloudera Manager Service”， 打 开 Cloudera 
Manager 服 务 页 面 。 


步骤 03 在 Cloudera Manager 服 务 页 面 单 击 “ 操 作 ”- “重启 *”， 重 启 
服务 。 
步骤 04 重启 HBase、HDFS、Hive 等 配置 改变 的 相关 服务 。 


手工 终止 试用 后 ， 试 用 版 会 自动 变更 为 Cloudera Express 版 。 除 了 
企业 版 特性 ， 其 他 Cloudera Manager 的 基本 功能 不 受 任何 影响 。 如 果 购 
买 了 企业 版 许可 证 ， 可 以 从 Express 版 直接 升级 到 企业 版 。 只 需要 在 
“许可 证 ”页 面 单 击 “上 载 许可 证 ”*”， 然 后 按照 向 导 的 步骤 顺序 执行 即 
可 。 


45 “小结 


(1) 除了 开源 的 Apache Hadoop 以 外 ， 还 有 Cloudera 、 
HortonWorks、MapR 三 个 主流 的 商业 Hadoop 发 行 版 本 。CDH 的 优点 在 
于 提供 了 包含 大 量 工 具 和 特性 的 用 户 友 好 界面 ， 缺 点 是 性 能 不 够 好 ， 
速度 较 慢 。HDP 的 优势 在 于 它 是 唯一 支持 Windows 平 台 的 Hadoop 版 
本 ， 劣 势 是 它 的 Ambari 管 理 界面 过 于 简单 ， 没 有 提供 丰富 的 特性 。 
MapR Hadoop 优 点 是 速度 快 ， 没 有 单 点 故障 ， 缺 点 是 没有 好 的 用 户 界 
面 控制 合 。 


(2) 手工 安装 Apache Hadoop 的 主要 步骤 包括 : 准备 集群 节点 主 
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(master, slave) 规划 ; 建立 运行 Hadoop 集 群 的 Linux 用 户 ; 在 hosts 中 

添加 域名 解析 ; 安装 兼容 版 本 的 JDK; 配置 SSH 免 密码 ; 编辑 主要 的 

Hadoop 配 置 文件 ， 设 置 参数 ;) 设置 环境 变量 ; HDFS 初 始 化 ; 启动 
HDFS 和 YARN。 


(3) 为 了 解决 NameNode 的 单 点 问题 和 扩展 的 局 限 性 ， 在 
Hadoop-0.23.0 版 本 新 增 了 HDFS Federation 功 能 。Federation 使 用 了 多 个 
独立 的 NameNode 及 命名 空间 ， 这 些 NameNode 之 间 是 彼此 分 离 的 。 也 
就 是 说 ， 它 们 之 间 相 互 独立 且 不 需要 互相 协调 ， 各 自分 工 ， 管 理 自己 
的 区 域 。 


(4) 使 用 Cloudera Manager， 能 够 图 形 化 安装 和 部 署 CDH， 极 大 
简化 了 集群 的 管理 和 维护 工作 。 有 三 种 方式 安装 CDH: 通过 Cloudera 
Manager 自 动 安装 ; 使 用 Cloudera Manager Parcels% Packages 223%; 使 
用 Cloudera Manager Tarballs 手 工 安装 。 


(5) Cloudera Manager 许 可 证 有 Cloudera Express, Cloudera 
Enterprise 数 据 集线器 60 天 试用 版 和 Cloudera Enterprise 三 种 。Cloudera 
Enterprise 提 供 了 一 些 高 级 特性 和 功能 ， 其 许可 证 需要 购买 。60 天 试用 


期 满 或 者 在 试用 到 期 前 手工 结束 试用 后 ， 试 用 企业 版 自动 变更 为 
Express， 此 时 除了 企业 版 特性 ， 其 他 Cloudera Manager 的 基本 功能 的 
使 用 不 受 任 何 影响 。 


第 5 章 
<KettleSHadoop > 


上 一 章 详细 介绍 了 Apache Hadoop 和 CDH 的 安装 ， 这 为 我 们 开启 
Hadoop 上 的 数据 仓库 之 旅 做 好 了 准备 。 在 一 个 数据 仓库 项 目 中 ， 开 发 
阶段 最 关键 的 是 ETL 过 程 。 大 致 有 三 种 EIL 的 实现 途径 : 使 用 ETL 工 
具 、 使 用 特定 数据 库 的 SQL、 使 用 程序 语言 开发 自己 的 ETL 应 用 。 本 
章 介 绍 第 一 种 方式 。 我 们 将 使 用 Kettle 这 款 最 流行 的 ETL 工 具 操 作 
Hadoop 上 的 数据 。 


首先 概要 介绍 Kettle 对 大 数据 的 支持 ， 然 后 用 示例 说 明 Kettle 如 何 
连接 Hadoop， 如 何 导 入 导出 Hadoop 集 群 上 的 数据 ， 如 何 用 Kettle 执 行 
Hive 的 HiveQL 语 句 (HiveQL 将 在 6.2 节 作 简 要 介绍 ) ， 还 会 用 一 个 典 
型 的 MapReduce 转 换 ， 说 明 Kettle 在 实际 应 用 中 是 怎样 利用 Hadoop 分 布 
式 计算 框架 的 。 本 章 最 后 介绍 如 何在 Kettle 中 提交 Spark 作 业 。 


5.1 Kettle 


Kettle 是 用 Java 语 言 开发 的 。 它 最 初 的 作者 Matt Casters 原 是 一 名 C 
语言 程序 员 ， 在 着 手 开 发 Kettle 时 还 是 一 名 Java 小 白 ， 但 是 他 仅 用 了 一 
年 时 间 就 开发 出 了 Kettle 的 第 一 个 版 本 。 虽 然 有 很 多 不 足 ， 但 这 个 版 本 
毕竟 是 可 用 的 。 使 用 自己 并 不 束 悉 的 语言 ， 仅 赁 一 己 之 力 在 很 短 的 时 
间 里 就 开发 出 了 复杂 的 ETL 系 统 工具 ， 作 者 的 开发 能 力 和 实践 精神 令 
人 十 分 佩服 。 后 来 Pentaho 公 司 获得 了 Kettle 源 代码 的 版 权 ，Kettle 也 随 
之 更 名 为 Pentaho Data Integration， 简 称 PDI。 


Kettle 的 设计 原则 之 一 ， 就 是 尽量 减少 编程 ， 
通过 简单 拖 蝶 来 完成 。 它 通过 工作 流 和 数据 转换 两 种 不 同 的 模式 进 
数据 操作 ， 分 别 被 称 为 作业 和 转换 。 


作业 串 行 化 执行 一 系列 作业 项 ， 每 个 作业 项 中 封装 E 
操作 。 例 如 ， 一 个 Kettle 大 数据 相关 的 作业 可 以 完成 以 下 的 工作 : 


新 的 日 志文 件 是 否 存 在 ;将 产 端 的 文件 复制 到 HDFS; 执行 一 个 
MapReduce 任 务 ， 将 Web 日 志 聚 合成 单 击 流 ， 并 将 单 击 流 数据 存储 到 


一 个 分 析 数 据 库 中 。 最 新 版 的 Kettle 作 业 中 包含 的 大 数据 相关 作业 项 如 
表 5-1 所 示 。 


表 5-1 Kettle 作 业 中 的 大 数据 作业 项 


作业 项 名 称 描述 


Amazon EMR Job Executor 


Amazon Hive Job Executor 


在 Amazon EMR 中 执行 MapReduce 作业 
在 Amazon EMR 中 执行 Hive 作业 


Hadoop Copy Files 


Hadoop job executor 


将 本 地 文件 上 传 到 HDFS， 或 者 在 HDFS 上 复制 文件 
在 Hadoop 节点 上 执行 包含 在 JAR 文件 中 的 MapReduce 作业 


Oozie Job Executor 
Pentaho MapReduce 


Pig Script Executor 


执行 Oozie 工作 流 
在 Hadoop 中 执行 基于 MapReduce 的 转换 
在 Hadoop 集群 上 执行 Pig 脚本 


Sqoop Export 


使 用 Apache Sqoop 将 HDFS 上 的 数据 导出 到 一 个 关系 数据 库 中 


Sqoop Import 


使 用 Apache "pp 将 一 个 关系 数据 库 中 的 数据 导入 到 HDFS 上 


Start a PDI Cluster on YARN 


在 Hadoop 节点 上 启动 一 个 由 carte 服务 器 组 成 的 集群 


Stop a PDI Cluster on YARN 在 Hadoop 节点 上 停止 一 个 由 carte 服务 器 组 成 的 集群 


一 个 Kettle 转 换 由 若干 步骤 组 成 ， 这 些 步 又 并 行 执 行 ， 以 一 种 数据 
流 的 方式 操作 数据 列 。 数 据 列 通常 从 一 个 系统 流入 ， 经 过 Kettle 引 擎 的 


转换 形成 新 的 数据 列 ， 转 换 过 程 中 可 以 对 流入 的 数据 列 进行 计算 和 入 
选 ， 还 可 以 向 数据 流 中 加 入 新 的 列 。 流 出 的 数据 被 发 送 到 一 个 接收 系 
统 ， 如 Hadoop 集 群 、 数 据 库 或 Pentaho 的 报表 引擎 等 。 最 新 版 的 Kettle 
转换 中 包含 的 大 数据 步骤 如 表 5-2 所 示 。 


表 5-2 ”Kettle 转 换 中 的 大 数据 相关 步骤 


步骤 名 称 


Cassandra input 


描述 
从 一 个 Cassandra column family 中 读 取 数据 


Cassandra output 


向 一 个 Cassandra column family 中 写 入 数据 


CouchDB Input 
Hadoop File Input 
Hadoop File Output 


获取 CouchDB 数据 库 一 个 设计 文档 中 给 定 视图 所 包含 
读 取 存 储 在 Hadoop 集群 中 的 文本 型 文件 
向 存储 在 Hadoop 集群 中 的 文本 型 文件 中 写 数据 


的 所 有 文档 


HBase input 
HBase output 
HBase Row Decoder 


MapReduce Input 


从 HBase column family 中 读 取 数据 
问 HBase column family 中 写 入 数据 
对 HBase 的 键 / 值 对 进行 编码 

[5] MapReduce 输入 键 值 对 


MapReduce Output 


从 MapReduce 输出 键 值 对 


MongoDB Input 
MongoDB Output 


读 取 MongoDB 中 一 个 指定 数据 库 表 的 所 有 记录 
将 数据 写 入 MongoDB 的 表 中 


SSTable Output 


作为 Cassandra SSTable 写 入 一 个 文件 系统 目录 


KettleB i: 


久 计 很 独特 ， 它 既 可 以 在 Hadoop 集 群 外 部 执行 ， 也 可 以 


在 Hadoop 集 群 内 的 节点 上 执行 。 在 外 部 执行 时 ，Kettle 能 够 从 HDFS、 
Hive 和 HBase 抽 取 数 据 ， 或 者 向 它们 中 装载 数据 。 在 Hadoop 集 群 内 部 
执行 时 ，Kettle 转 换 可 以 作为 Mapper 或 Reducer 任 务 执行 ， 并 人 允许 将 
Pentaho MapReduce 作 业 项 作 为 MapReduce 的 可 视 化 编程 工具 来 使 用 。 
后 面 我 们 会 用 示例 演示 这 些 功 能 。 


5.2 ” Kettle 连接 Hadoop 


过 提交 适当 的 参数 ，Kettle 可 以 连接 Hadoop BJ HDFS , 
PEU Zookeeper、Oozie 和 Spark 服 务 。 在 数据 库 连 接 类 型 中 文 
持 Hive、Hive2 和 Impala。 在 本 节 示 例 中 ， 我 们 只 配置 Kettle 连 接 HDFS 
和 Hive2。 


5.2.1 ”连接 HDFS 


要 使 Kettle 连 接 Hadoop 集 群 ， 需 要 两 个 操作 : 设置 一 个 Active 
Shim; 建立 并 测试 连接 。Shim 是 Pentaho 开 发 的 插件 ， 功 能 有 点 类 似 于 
一 个 适配器 ， 帮 助 用 户 连 接 Hadoop。Pentaho 定 期 发 布 Shim， 可 以 从 
Pentaho 的 官方 网 站 查询 所 使 用 的 Kettle 版 本 支持 的 Shim。 使 用 Shim 能 
够 连接 不 同 的 Hadoop 发 行 版 本 ， 如 CDH、HDP、MapR 等 。 当 在 Kettle 
中 执行 一 个 大 数据 的 转换 或 作业 时 ， 默 认 会 使 用 设置 的 Active Shimo 
初始 安装 Kettle 时 ， 并 没 Active Shim， 因 此 在 尝试 连接 Hadoop 集 群 
前 ， 首 先 要 做 的 就 是 选择 一 个 Active Shim ， 选 择 的 同时 也 就 激活 了 此 
Active Shim。 设置 好 Active Shim 后 ， 再 经 过 一 定 的 配置 ， 就 可 以 测试 
连接 了 。Kettle 内 建 的 工具 可 以 为 完成 这 些 工作 提供 帮助 。 


1. 开始 前 准备 


在 配置 连接 前 ， 要 确认 Kettle 具 有 访问 HDFS 相 关 目 录 的 权限 ， 访 
问 的 目录 通常 包括 用 户主 目录 以 及 工作 需要 的 其 他 目录 。Hadoop 管 理 
员 应 该 已 经 配置 了 允许 Kettle 所 在 主机 对 Hadoop 集 群 的 访问 。 除 权限 
外 ， 还 需要 确认 以 下 信息 : 


Hadoop 集 群 的 发 行 版 本 (例如 CDH5.7) o 

HDFS、 MapReduce 或 Zookeeper 服 务 的 IP 地 址 和 端口 号 (这 个 
示例 中 我 们 只 需要 HDFS 服 务 的 了 和 端口 号 ) o 

。 如 果 要 使 用 Oozie， 需 要 知道 Qozie 服 务 的 URL。 


本 示例 的 环境 信息 如 下 。 


4 台 CentOS release 6.4 虚 拟 机 ，IP 地 址 为 : 192.168.56.101、 
192.168.56.102、192.168.56.103、192.168.56.104。 


e 192.168.56.101 是 Hadoop 集 群 的 master， 运 行 NameNode 进 程 。 


e 192.168.56.102 、 192.168.56.103 是 Hadoop 的 slave , jG íT 
DataNode 进 程 。 
e 192.168.56.104 Ej #& Zz 48 f Pentaho AY Kettle , zz 3€ Ej 3& 


7J/root/data-integrationo 
Apache Hadoop 版 本 : 2.7.20 
Kettle 版 本 : 6.0。 


HDFS 的 端口 号 是 9000 (由 fs.defaultFS 参 数 所 定义 ) o 
Hadoop 集 群 的 安装 配置 参考 4.2 节 。 
2。 配 置 步骤 


(1) 复制 Hadoop 的 配置 文件 到 Kettle 的 相应 目录 下 。 
在 192.168.56.101 上 执行 以 下 命令 : 


scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml 
root@192.168.56.104:/root/data- 
integration/plugins/pentaho-big-data-plugin/hadoop- 
configurations/cdh54/ 

scp /home/grid/hadoop/etc/hadoop/core-site. xml 
root@192.168.56.104:/root/data- 
integration/plugins/pentaho-big-data-plugin/hadoop- 
configurations/cdh54/ 


下 面 的 配置 均 在 192.168.56.104 上 进行 。 
(2) 在 安装 Kettle 的 主机 上 建立 访问 Hadoop 集 群 的 用 户 。 


这 里 Hadoop 集 群 的 属 主 是 grid， 所 以 执行 以 下 命令 建立 相同 的 用 
p: 


useradd -d /home/grid -m grid 
usermod -a -G root grid 


(3) 修改 Kettle 的 安装 目录 ， 并 将 属 主 设置 为 grid。 
mv /root/data-integration /home/grid/ 


chown -R grid:root /home/grid/data-integration 


(4) 编辑 相关 配置 文件 。 


cd /home/grid/data-integration/plugins/pentaho-big-data- 
plugin/hadoop-configurations/cdh54/ 


在 config.properties 文 件 中 添加 如 下 一 行 ， 不 使 用 身份 认证 〈 此 配 
置 是 不 安全 的 ， 只 用 于 演示 目的 ) o 


authentication.superuser.provider=NO_AUTH 


(5) 在 Kettle 中 设置 Active Shim。 


014 打开 Kettle。 
步骤 024 选择 菜单 “< 工具 ”- “Hadoop Distribution...”， 从 弹出 窗口 中 
可 以 看 到 ，Kettle 6.0 支 持 四 种 Shim ， 这 里 选择 Cloudera CDH 
5.4， 如 图 5-1 所 示 ， 然 后 单 击 “OK”。 


JANN 


Hadoop Distribution 


Active Shim: 


Amazon EMR 3.4 


HortonWorks HDP 2.2.x 
MapR 4.1.0 


©) Help OK Cancel 


图 5-1 激活 Shim 


步骤 034 #Kettle 


(6) 配置 和 测试 连接 。 


新 建 一 个 作业 或 转换 ， 在 “ 主 对 象 树 ” 中 选中 “Hadoop cluster”, A 
击 选 择 “New Cluster*， 填 写 相 关 信息 ， 如 图 5-2 所 示 。 之 后 单 击 “ 测 
试 ”， 结 果 如 图 5-3 所 示 ， 显 示 连 接 HDFS 成 功 。 


Hadoop cluster 


Cluster Name: 


|hadoop local 


Use MapR client 
HDFS 
Hostname: Port: 
[192.168.56511 Je [900 je 
Username: Password: 


| e | e 


JobTracker 

Hostname: Port: 

| e | 9 
ZooKeeper 

Hostname: Port: 


@ Help 测试 {I) 确定 (0) 取消 (C) 


图 5-2 ”配置 Hadoop 集 群 


Hadoop Cluster Test 


J Active Shim um 
Successfully loaded the cdh54 shim 
SA Shim are wae Verification 
The Hadoop File System URL matches the Active shim 
d ae File m Connection 
Successfully ed to ho 
J User Home Mic n Access 
Successf ad dir ntents 
WA Root Di iid Access 
St ‘ ad dire contents 
J Verify User Home Permissions 
ser has and de ermissions for their home directory. 
X Ping Job Tracker / Resource Manager 
Hostname Is requi ed 
Leam more 


X 0ozie Host Connection 
nable to connect to Oozie 
Learn more 
X Zookeeper Ensemble Connection 
One or more Zookeeper hostnames were not set. 


Leam more 


C) Help] 关闭 (C) 


图 5-3 ”Hadoop 集 群 测试 


关闭 “Hadoop Cluster Test* 窗 口 后 ， 单 击 “Hadoop cluster’ A OA “tA 
定 ” 按 钮 ， 至 此 就 建立 了 一 个 Kettle 可 以 连接 的 Hadoop 集 群 。 


图 5-2 的 Hadoop 集 群 配 置 窗口 中 的 选项 及 定义 说 明 如 下 : 


。 Cluster Name: 定义 要 连接 的 集群 名 称 。 

。 Use MapR client: 表示 连接 的 是 MapR 人 集群。 如 RER, » HDFS 
和 JobTracker 段 就 会 被 禁用 ， 因 为 配置 MapR 连 接 不 需要 这 些 参 
数 。 

e Hostname (HDFS 段 ) : Hadoop 集 群 中 NameNode 节 点 的 主机 
名 。 

。 Port (HDFS 段 ) : area eee EB Ls. 

e Username (HDFS 段 ) : HDFS 的 用 户 名 ， 通 过 宿主 操作 系统 给 
出 。 


Password (HDFSEZ) : HDFS 的 密码 ， 通 过 宿主 操作 系统 给 
出 。 

Hostname (JobTracker 段 ) : Hadoop 集 群 中 JobTracker 节 点 的 主 
机 名 。 如 果 有 独立 的 JobTracker 节 点 ， 在 此 输入 ， 否 则 使 用 
HDFS 的 主机 名 。 

Port (JobTrackerf%) : Hadoop 集 群 中 JobTracker 节 点 的 端口 
号 ， 不 能 与 HDFS 的 端口 号 相同 。 

Hostname (ZooKeeperEz) : Hadoop 集 群 中 Zookeeper 节 点 的 主 
机 名 ， 只 有 在 连接 Zookeeper 服 务 时 才 需 

Port (ZooKeeperEZ) : Hadoop 集 群 中 Zookeeper 节 点 的 端口 
号 ， 只 有 在 连接 Zookeeper 服 务 时 才 需 要 。 

URL (Oozie 段 ) : Oozie WebUI 的 地 址 ， 只 有 在 连接 Oozie 服 务 
时 才 需 要 。 


如 果 是 首次 配置 Kettle 连 接 Hadoop ， 难 免 会 出 现 这 样 那 样 的 问 
题 ，Pentaho 文 档 中 列 出 了 配置 过 程 中 的 常见 问题 及 其 通用 解决 方法 ， 
如 表 5-3 所 示 。 和 希望 这 能 对 Kettle 或 Hadoop 新 手 有 所 帮助 。 


表 5-3 ”Kettle 访 问 Hadoop 时 的 常见 错误 


症状 


通常 原因 通用 解决 方法 


Shim 和 配置 问题 


No shim 。 没有 选择 shim。 e FH; Æ plugin.properties X^ 件 中 active. 
e. shim 安装 位 置 错 误 。 hadoop.configuration 参数 的 值 是 否 与 pentaho- 
e plugin.properties 文件 中 big-data-plugin/hadoop-configurations 下 的 目录 名 

没有 正确 的 shim 名 称 。 相 匹 配 。 


。 确认 shim 安装 在 正确 的 位 置 〈 默 认 安 装 在 
Kettle 安装 目录 的 plugins/pentaho-big-data-plugin 
子 目 录 下 ) « 

e 参考 Pentaho “Set Up Pentaho to Connect to a 
Hadoop Cluster” 文 档 ， 确 认 shim 插件 的 名 称 和 
安装 目录 


通用 解决 方法 


Shim doesn't load 


The file system's 
URL does not match 
the URL in the 
configuration file 

连接 问题 
Hostname incorrect 
or not 


properly 


resolving 


Port name is incorrect 


Can't connect 


目录 访问 或 权限 问题 


Can't access directory 


Can't 


update, or delete files 


create, read, 


or directories 


5.2.2 ”连接 Hive 


没有 安装 许可 证 。 

Kettle 版 本 不 支持 装载 
的 shim. 

如 果 选 择 的 是 MapR 
shim， 客 户 端 可 能 没有 
正确 安装 。 
配置 文件 改变 导致 错 


误 。 


*-site.xml 文件 配置 错误 


没有 指定 主机 名 。 
主机 名 /IP 地 址 错误 。 
主机 名 没有 正确 解析 
没有 指定 端口 号 。 


端口 号 错误 


被 防火 墙 阻止 。 
其 他 网 络 问题 


认证 或 权限 问题 。 
目录 不 在 集群 上 


认证 或 权限 问题 


参考 Pentaho “required licenses are installed" X 
档 ， 验 证 许可 证 安装 ， 并 且 确 认 许可 证 没有 过 
期 。 

参考 Pentaho “Components Reference” 文 档 ， 
验证 使 用 的 Kettle 版 本 所 支持 的 shim. 

参考 Pentaho “Set Up Pentaho to Connect to an 
Apache Hadoop Cluster” 文 档 ， 检 查 配 置 文件 。 
如 果 连 接 的 是 MapR， 检 查 客 户 端 安装 ， 然 后 重 
JA Kettle 后 再 测试 连接 。 

如 果 该 错误 持续 发 生 ， 文 件 可 能 损坏 ， 需 要 从 
Pentaho 官网 下 载 新 的 shim 文件 

参考 Pentaho “Set Up Pentaho to Connect to an 
Apache Hadoop Cluster” 文 档 ， 检 查 配 置 文件 ， 


主要 是 core-site.xml 文件 是 否 配 置 正确 


验证 主机 名 /IP 地 址 是 否 正 确 。 
检查 DNS 或 hosts 文件 ， 确 认 主机 名 解析 正确 


验证 端口 号 是 否 正确 。 

确认 Hadoop 集群 是 否 启用 了 HA， 如 果 是 ， 则 
不 需要 指定 端口 号 

检查 防火 墙 配置 ， 并 确认 没有 其 他 网 络 问题 


确认 连接 使 用 的 用 户 对 被 访问 的 目录 有 读 、 
写 ， 或 执行 权限 。 

检查 集群 的 安全 设置 (如 dfs.permissions 等 ) 是 
T YF shim 访问 。 

验证 HDFS 的 主机 名 和 端口 号 是 否 正 确 

确认 用 户 已 经 被 授予 目录 的 执行 权限 

检查 集群 的 安全 设置 (如 dfs.permissions 等 ) 是 
18 fo VE shim 访问 。 


验证 HDFS 的 主机 名 和 端口 号 是 否 正 确 


Kettle 把 Hive 当 作 一 个 数据 库 ， 支 持 连 接 Hive Server 和 Hive Server 
2， 数 据 库 连接 类 型 的 名 字 分 别 为 Hadoop Hive 和 Hadoop Hive 2. 


Hive Server 有 两 个 明显 的 问题 ， 一 是 不 够 稳定 ， 经 常会 莫名 奇妙 
地 假死 ， 导 致 客户 端 所 有 的 连接 都 被 挂 起 。 二 是 并 发 性 支持 不 好 ， 如 
果 一 个 用 户 在 连接 中 设置 了 一 些 环境 变量 ， 绑 定 到 一 个 Thrift 工 作 线程 
(关于 Hive 的 Thrift 服 务 将 在 第 8 章 做 介绍 ) ， 当 该 用 户 断 开 连 接 ， 另 
一 个 用 户 也 创建 了 一 个 连接 ， 他 有 可 能 也 被 分 配 到 之 前 的 线程 ， 复 用 
之 前 的 配置 。 这 是 因为 Thrift 不 支持 检测 客户 端 是 否 断 开 连 接 ， 也 就 无 
法 清除 会 话 的 状态 信息 。Hive Server 2 的 稳定 性 更 高 ， 并 且 已 经 完美 
支持 了 会 话 。 从 长 远 来 看 都 会 以 Hive Server 2 作为 首选 。 


这 里 演示 的 示例 就 是 连接 Hive 2。 我 们 先 在 Hadoop 集 群 中 安装 
Hive， 然 后 在 Kettle 中 建立 一 个 Hadoop Hive 2 类 型 的 数据 库 连 接 。 


1。 安 装 Hive 


(1) 安装 配置 Hadoop ， 在 集群 的 所 有 节点 上 设置 好 Hadoop 相 关 


环境 变量 ， 参 见 4.2 节 。 


(2) 下 载 以 下 安装 包 。 由 于 要 在 MySQL 中 存储 Hive 元 数据 ， 
此 除了 Hive 安 装 包 外 ， 还 需要 安装 MySQL 数 据 库 及 其 JDBC 驱 动 程 
序 。 


mysql-5.7.10-linux-glibc2.5-x86 64 
apache-hive-1.2.1-bin.tar.gz 
mysql-connector-java-5.1.38.tar.gz 


因为 所 有 主机 都 已 经 设置 了 Hadoop 相 关 的 环境 变量 ， 所 以 以 下 操 
作 可 以 在 Hadoop 集 群 中 的 任 一 节点 主机 上 执行 。Hive 通 过 环境 变量 找 
到 Hadoop 的 配置 文件 ， 读 取 其 中 的 配置 ， 从 而 连接 到 HDFS 和 YARN。 


(3) 安装 MySQL。 


# 解压 缩 

cd /home/grid 

tar -zxvf mysql-5.7.10-linux-glibc2.5-x86_64.tar.gz 

# 建立 软 连 接 

ln -s /home/grid/mysql-5.7.10-linux-glibc2.5-x86 64 mysql 
# 建立 数据 目录 

mkdir /home/grid/mysql/data 

# 编辑 配置 文件 一 / .my .cnf 内 容 如 下 : 

[mysqld] 

basedir=/home/grid/mysql 

datadir=/home/grid/mysql/data 
log_error=/home/grid/mysql/data/master.err 
log_error_verbosity=2 

# 初始 化 安装 ， 并 记 下 初始 密码 

mysqld --defaults-file-/home/grid/.my.cnf --initialize 
4 启动 MySQL 

mysqld --defaults-file=/home/grid/.my.cnf --user=grid & 
# 登录 MySQL， 修 改 初始 密码 

mysql -u root -p 

mysql» ALTER USER USER() IDENTIFIED BY 'new password'; 
mysql» exit; 

# 在 /etc/profile 中 添加 环境 变量 

export PATH=$PATH:/home/grid/mysql/bin 


(4) 安装 配置 hive。 


# 解压 缩 

cd /home/grid 

tar -zxvf apache-hive-1.2.1-bin.tar.gz 

# 建立 软 连接 

ln -s /home/grid/apache-hive-1.2.1-bin hive 
# 建立 临时 目录 

mkdir /home/grid/hive/iotmp 


# 建立 配置 文件 hive-site .xml 


cp ^/hive/conf/hive-default.xml.template ~/hive/conf/hive- 
site.xml 


# 新 建 配置 文件 hive-site,xm1Ll， 内 容 如 下 : 

<?xml version="1.0" encoding="utf-8" standalone="no"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xs1l"?> 
<configuration> 


<!-- 配置 MySQL 连 接 串 ， 如 果 没 有 hive 数 据 库 则 建立 ; 


这 里 MySQL 与 Hive 安 装 在 同一 台 主 机 上 ， 因 此 使 用 本 机 IP 地 址 --> 
«property» 
<name>javax.jdo.option.ConnectionURL</name> 


<value>jdbc:mysql://127.0.0.1:3306/hive? 
createDatabaseIfNotExist=true&useSSL=false</value 
> 
</property> 
<!-- 配置 JDBC 驱 动 - -> 
<property> 
<name>javax.jdo.option.ConnectionDriverName</name> 
<value>com.mysql.jdbc.Driver</value> 
</property> 
<!-- 连接 MySQL 使 用 的 用 户 名 --> 
<property> 
<name>javax.jdo.option.ConnectionUserName</name> 
<value>root</value> 


</property> 
<!-- 连接 MySQL 使 用 的 密码 - -> 
«property» 


<name>javax.jdo.option.ConnectionPassword</name> 
<value>new_password</value> 


</property> 
<!-- 在 hive 命 令 行 提示 符 中 显示 当前 数据 库 --> 
«property» 


<name>hive.cli.print.current.db</name> 
<value>true</value> 
</property> 
</configuration> 


# 复制 JDBC 驱 动 到 Hive 的 1ib 目 录 

tar -zxvf mysql-connector-java-5.1.38.tar.gz 

cp /home/grid/connector/mysql-connector-java-5.1.38-bin.jar 
/home/grid/hive/lib/ 

4 在 /etc/profile 中 添加 环境 变量 

export HIVE HOME-/home/grid/hive 

export PATH=$PATH: $HIVE_HOME/bin 


# 重新 登录 Liunx， 运 行 hive 命 令 行 ， 执 行 Sshow databases 命 令 ， 结 果 如 下 所 


7m. 

hive» show databases; 

OK 

default 

Time taken: 0.694 seconds, Fetched: 1 row(s) 


可 以 看 到 ， 初 始 安装 后 ，Hive 只 有 一 个 default 数 据 库 。 至 此 ， 


Hive 1.2.1 安 装 完毕 。 
2. Kettle 5.1.0 连 接 Apache Hive 1.2.1 
安装 好 了 Hadoop、Hive 和 Kettle ， 接 下 来 测试 Kettle 5.1.0 连 接 


Apache Hive 1.2.1， 步 骤 如 下 。 


(1) 在 Hive 中 建立 一 个 名 为 test 的 数据 库 ， 用 于 后 面 的 数据 库 连 
接 配 置 。 


create database test; 


(2) 配置 Hive Server2， 在 hive-site.xml 中 添加 如 下 4 个 属性 。 


<!-- 配置 hive server2 的 主机 IP 地 址 --> 

<property> 
<name>hive.server2.thrift.bind.host</name> 
<value>192.168.56.101</value> 


</property> 
<!-- 配置 hive server2 的 主机 端口 号 --> 
<property> 


<name>hive.server2.thrift.port</name> 
<value>10001</value> 


</property> 

<!-- 配置 最 小 工作 线程 数 --> 

<property> 
<name>hive.server2.thrift.min.worker.threads</name> 
<value>5</value> 

</property> 

<!-- 配置 最 大 工作 线程 数 --> 

<property> 
<name>hive.server2.thrift.max.worker.threads</name> 
<value>500</value> 

</property> 


(3) 启动 Hive Server2。 


$HIVE HOME/bin/hiveserver2 


(4) 修改 kettle 的 配置 文件 。 


将 Kettle 安 装 目 录 下 plugins/pentaho-big-data-plugin/plugin.properties 
文件 中 的 


active.hadoop.configuration 人 参数 修改 成 下 面 的 值 : 


active.hadoop.configuration-hdp20 


说 明 : 这 步 很 重要 ， 一 定 要 根据 实际 情况 进行 配置 ， 这 个 示例 连 
接 的 是 Apache Hive 1.2.1， 所 以 要 设置 成 hdp20。 如 果 设 置 不 当 ， 连 接 
Hive BY 会 报 Error connecting to database : ( using class 


ét so 


org.apache.hadoop.hive.jdbc.HiveDriver) 类 似 的 错误 。 
(5) 启动 Kettle， 配 置 并 测试 数据 库 连 接 。 


打开 Kettte， 新 建 一 个 作业 或 转换 ， 在 “view” 标 签 页 选择 
“Database connections”， 右 键 选择 new”， 在 弹出 窗口 中 填写 相关 信 
息 ， 如 图 5-4 所 示 。 


SE pH WE 28 2m 帮助 
[x] Spoon - a (changed) = 
Hie Edit Mew oA Database Connection 
a |e Date 
SVE P oes | HALA) connection name: 
Er 2 Design | | Advanced ET | 
Opti = 
E P EX Connection Type: Settings 
v © Transformations | | Pooling ~)| Host Name: 
Me Clustering Hadoop Hive 2 B 
d E x — Hypersonic || | [192.168.56.101 e 
v C] | 
S"BIVecol IBM DB2 Database Name: 
8 mysdi Impala 1 test id 
: i Infobright 
b © Steps pem k Port Number: 
© Hops 10001 e 
£5 Partition sc | os 
| Ingres VectorWise || User Name: 
© Slave serv > 
& Kettle clus Intersystems Cache 
g 
x Kettle thin JDBC driver || Password: 
KingbaseES Ie] $ 
Access: 
Native (JDBC) 
| Test ||FeatureL|| Explore | 
| OK || Cancel | 
3 > 
OF GOSS (D) (3 (8) Rit ctrl 


Éd5-A 数据库 连接 配置 


图 5-4 的 数据 库 连接 配置 窗口 中 的 选项 及 定义 说 明 如 下 : 


Connection Name: 定义 连接 名 称 。 

Connection Type: 连接 类 型 选择 Hadoop Hive 2。 

Host Name: 主机 名 ， 填 写 hive.server2.thrift.bind.host 人 参数 的 
值 。 

Datebase Name: 数据 库 名 称 ， 这 里 填写 test， 如 果 为 空 ， 则 查 
询 的 是 default 库 。 

Port Number: 端口 号 ， 填 写 hive.server2.thrift.port 参 数 的 值 。 
User Name: 用 户 名 ， 这 里 为 空 。 

Password: 密码 ， 这 里 为 空 。 


单 击 Test， 应 该 弹出 成 功 连接 窗口 ， 显 示 内 容 如 下 : 


正确 连接 到 数据 库 [hiveconn] 


主机 名 : 192.168.56.101 
端口 : 10001 
数据 库 名 :test 


5.3 导出 导入 Hadoop 集 群 数据 


本 小 节 用 两 个 示例 演示 如 何 使 用 Kettle 导 出 导入 Hadoop 数 据 。 第 
一 个 示例 用 一 个 Kettle 转 换 将 HDFS 上 的 文本 文件 导出 到 本 地 MySQL 数 
据 库 。 第 二 个 示例 用 一 个 Kettle 作 业 将 数据 导入 到 Hive 表 。 示 例 中 使 用 
的 集群 是 4.2 节 中 所 安装 的 Apache Hadoop, ，Hive 是 5.2 节 中 所 安装 的 
Hive 1.2.1。 已 经 按照 5.2 节 说 明 的 方法 ， 在 Kettle 中 定义 了 Hadoop 集 群 
和 Hive 数 据 库 连 接 。 将 本 地 数据 导入 HDFS， 或 者 导出 Hive 中 的 数据 也 
是 可 以 的 ， 有 兴趣 的 读者 可 自行 实验 。 


5.3.1 ”把 数据 从 HDFS 抽 取 到 RDBMS 
出 于 演示 目的 ， 本 示例 的 转换 只 包含 “Hadoop File Input* 和 “Table 
Output” 两 个 步 又 。 
(1) 从 下 面 的 地 址 下 载 数据 文件 。 


http://wiki.pentaho.com/download/attachments/23530622/weblogs ag 
gregate.txt.zip?version-1&modificationDate-1327067858000 


这 Æ Pentaho 提供 的 一 个 压缩 文件 ， 其 中 包含 一 个 名 为 
weblogs_aggregate.txt 的 文本 文件 ， 文 件 中 有 36616 行 记录 ， 每 行 记 录 有 
4 列 ， 分 别 表示 IP 地 址 、 年 份 、 月 份 、 访 问 页 面 数 ， 前 5 行 记录 如 下 。 
我 们 使 用 这 个 文件 作为 最 初 的 原始 数据 。 


0.308.86.81 2012 07 1 


0.32.48.676 2012 01 3 
0.32.85.668 2012 07 8 
9Qcdb 305 ci 2012 01 1 
0.45.305.7 2012 02 1 


(2) 用 下 面 的 命令 把 解压 缩 后 的 weblogs_aggregate.txt 文 件 上 传 到 
HDFS 的 /user/grid/aggregate_mr/ 目 录 下 。 


hadoop fs -put weblogs aggregate.txt /user/grid/aggregate mr/ 


步骤 014 打开 Kettle， 新 建 一 个 包含 两 个 步骤 的 转换 ， 如 图 5-5 所 
"ho 


加 一 一 > 一 个 


Hadoop File Input Table output 
图 5-5 ”把 数据 从 HDFS 抽 取 到 RDBMS 的 转换 


5902 / 编辑 “Hadoop File mput” 步 又， 如 图 5-6 一 图 5-8 所 示 。 


Hadoop File Input 


Xft^ 内 容 | 错误 处 理 | 过 波 | 字段 
选中 的 文件 : x 
^  $ Environment File/Folder 通配符 要 求 包含 子 目录 


从 上 一 步 又 获取 文件 名 
从 以 前 的 步骤 接受 文件 名 [ 


© Help EO) 预览 记录 取消 (C) 


图 5-6 Hadoop File Input 步 骤 的 “文件 ”标签 


文件 | 内 容 从 错误 处 理 | 过 滤 | 字段 


分 页 布局 (printout)? 口 


Hadoop File Input 


faska [Hadoop File Input 


文件 类 型 [Coy 


vl 


隔 符 | | lo Insert TAB 


- 
压缩 None v 


没有 空 行 网 


在 输出 包括 字段 名 ? O 


输出 包含 行 数 ? O 


格式 |Unix 


图 5-7 Hadoop File Input 步 骤 的 “内 容 ” 标 签 


Hadoop File Input 


文件 | 内 容 | 错误 处 理 | 过 小 | 字段 


^ 9 名 称 
il client ip 
2 year 
3j month num 
4 pageviews 


@ Help 


类 型 
String 
| Integer 
Integer 
Integer 


BAR adoop File input 


格式 | ME TT 分 组 。 | Null if “| 默认 | 去 除 空 字符 趾 方式 | 重复 
| |! fs * 1$] 2 E | [TAROM E 
# : 15 $ | 不 去 掉 空格 * 
E 15 $ ; |= 不 去 掉 空 格 5 
i£. | jas $ | 不 去 掉 空 格 a 
获取 字段 
确定 (0) 预览 记录 取消 (C) 


说 明 


图 5-8 Hadoop File Input 步 骤 的 “字段 "标签 


。 在 “文件 ”标签 里 ，“Environment” 列 选择 “Static”， 文 件 选 择 我 们 
刚 上 传 到 HDFS_ 上 /user/grid/aggregate_mr/weblogs_aggregate.txto 

。 在 “内 容 ” 标 签 里 ， 文 件 类 型 选择 CSV， 以 tab 作 为 列 分 隔 符 ( 单 
击 “Insert TAB” 按 钮 ) ,， “格式 ”选择 “Unix”。 

。 在 “字段 ”标签 里 ， 定 义 与 文件 对 应 的 列 的 名 称 、 类 型 及 其 他 属 
性 。 


步骤 03 Á 编辑 Table Output 步 又， 如 图 5-9 所 示 。 


HEAR 


数据 库 连 接 |m ysal local 


目标 样式 


Hin 
提交 记录 数量 


主 选项 \ 数据 库 字 段 


表 名 定义 在 一 个 字段 里 ? 


存储 表 名 字段 


[© Heip) 


新 建 .., | | Wizard... 


© | 浏览 (B)...| 


aggregate_hdfs 9 | 浏览 (8)...| 


1000 le 


fi FR E IR 


meo || moe || 


BOX O 


指定 数据 库 子 段 O 


表 分 区 数据 口 


IS 


& | 


SQL 


图 5-9 MySQL 表 输出 


说 明 : 


。“mysql_local” 是 已 经 建 好 的 一 个 本 地 MySQL 数 据 库 连 接 ， 设 置 


如 图 5-10 所 示 。 


。“ 数 据 库 字段 ?标签 不 需要 设置 。 


Database Connection 


Connection Name 


mysql loca 


Opt ^ Settings 
posting Comnection Type Tangs 
: Inrormix ~| Host Name; 
Clustering SS.  ——————— 
z : Ingres localhost o 
Ingres VectorWise Database Name: 
Intersystems Cache 
inu j test o 
KingbaseES 
LucidDB d Port Number: 
MS Access Æ |3306 e 
MS SQL Server User Name; 
MS SQL Server (Native) root © 
MaxDB (SAP DB) Password: 
MonetDB 
versoes > 
Access: w| Use Result Si ming Cul 
y rive à , C. i 
opec 
JNDI 
WA | 特征 列表 浏览 
OK || Cancel 


图 5-10 ”mysql_local 数 据 库 连接 


步骤 044 在 本 地 MySQL 中 执行 下 面 的 SQL 语句 建立 目标 表 。 


use test; 

create table aggregate_hdfs ( 
client_ip varchar(15), 
year smallint, 
month_num tinyint, 
pageviews bigint 


步骤 054 保存 并 执行 转换 。 


步骤 06 转换 成 功 执行 后 ， 查 询 MySQL 表 ， 结 果 如 下 。 可 以 看 
到 ， 数 据 已 经 从 HDFS 抽 取 到 了 MySQL 表 中 。 


mysql» select count(*) from test.aggregate hdfs; 


| count(*) | 


1 row in set (0.01 sec) 


mysql» select * from test.aggregate hdfs limit 5; 
ee > e ee Ss 十 
| client ip | year | month num | pageviews | 
下 RE a a 十 
| 0.308.86.81 | 2012 | 7 | T | 
| ©.32.48.676 | 2012 | 1- | 3 | 
| 0.32.85.668 | 2012 | 7 | 8 | 
| ©.45.305.7 | 2012 | L] TA 
| 0.45.305.7 | 2012 | 2 | a^] 
dpeeccocooococoo dececoc deeseecseooooo I 十 
rows in set (0.00 sec) 


5.3.2 ”向 Hive 表 导入 数据 


Hive 默 认 时 不 能 进行 行 级 插入 的 ， 也 就 是 说 默认 时 不 能 使 用 insert 
into ... values 这 种 SQL 语句 向 Hive 插 入 数据 。 通 常 Hive 表 数据 导入 方式 
有 以 下 两 种 : 


。 从 本 地 文件 系统 中 导入 数据 到 Hive 表 ， 使 用 的 语句 是 : load 
data local inpath 目 录 或 文件 into table 表 名 。 

。 从 HDFS 上 导入 数据 到 Hive 表 ， 使 用 的 语句 是 : load data inpath 
目录 或 文件 into table 表 名 。 


再 有 数据 一 旦 导入 Hive 表 ， 默 认 不 能 进行 更 新 和 删除 的 ， 只 能 向 
表 中 追加 数据 或 者 用 新 数据 整体 覆盖 原来 的 数据 。 要 删除 表 数 据 只 能 
执行 truncate 或 者 drop table 操 作 ， 这 实际 上 是 删除 了 表 所 对 应 的 HDFS 
上 的 数据 文件 或 目录 。 


Kettle 作 业 中 的 “Hadoop Copy Files” 作 业 项 可 以 将 本 地 文件 上 传 至 
HDFS。 下 面 就 用 一 个 示例 说 明 ， 使 用 “Hadoop Copy Files” 向 Hive 表 导 
入 数据 ， 作 业 执 行 的 效果 与 lo0ad data local inpath 语 句 相 同 。 


(1) 从 下 面 的 地 址 下 载 数 据 文件 。 


http://wiki.pentaho.com/download/attachments/23530622/weblogs par 
se.txt.zip?version- 1&modificationDate- 1327068013000 


这 Æ Pentaho 提供 的 一 个 压缩 文件 ， 其 中 包含 一 个 名 为 
weblogs_parse.txt 的 文本 文件 ， 它 模拟 一 个 Web 访 问 日 志 记 录 。 文 件 中 
有 445454 行 记录 ， 每 行 记 录 有 16 列 。 我 们 使 用 这 个 文件 作为 本 地 数据 
Jo 

(2) 把 解压 缩 后 的 weblogs_parse.txt 文 件 保存 到 Kettle 所 在 主机 
的 /home/grid/data-integration/test 目 录 下 。 


(3) 建立 一 个 作业 ， 将 文件 导入 到 hive 表 中 。 


步骤 01 执行 下 面 的 HiveQL 语 句 ， 在 Hive 的 test 库 中 建立 一 个 名 为 
weblogs 的 表 ， 字 段 对 应 文本 文件 中 的 列 ， 文 件 格式 使 用 默认 的 文 
本 格式 ， 以 TAB 作为 列 间 分 隔 符 。 


create table test.weblogs ( 


client ip string, 
full request date string, 
day string, 
month string, 
month num int, 
year string, 
hour string, 
minute string, 
second string, 
timezone string, 
http verb string, 
uri string, 
http status code string, 

bytes returned string, 
referrer string, 
user agent string) 


row format delimited 
fields terminated by '\t'; 


步骤 02 打开 Kettle， 新 建 一 个 作业 ， 如 图 5-11 所 示 。 
Ud >— [| 
START Hadoop Copy Files 
图 5-11 ”Hadoop 复 制 文件 作业 


步骤 034 编辑 “Hadoop Copy Files” 作 业 项 ， 如 图 5-12 所 示 。 


图 5-12 Hadoop Copy Files 作 业 项 


说 明 : 


Source Env: 选择 “Local”， 表 示 本 地 文件 或 目录 。 

源 文件 了 目录 : 填写 本 地 文件 所 在 路 径 。 

通配符 : 填写 “人 ^.*\.txt”， 表 示 任 何以 txt 为 mA 缀 的 文件 。 

Destination Env: 选择 “hadoop local”， 它 是 已 经 建立 好 的 

Hadoop Clusters 连 接 ， 建 立 过 程 参 考 5.2 节 。 

目标 文件 二 目录 : 填写 “/user/hive/warehouse/test.db/weblogs”， 
一 个 HDFS 目 录 。/user/hive/warehouse 是 默认 的 “数据 仓库 ”路 

f$, ，test.db 是 数据 库 目 录 ，weblogs 是 表 目 录 。 默 认 情 况 下 ， 

Hive 总 是 将 创建 的 表 目 录放 置 在 这 个 表 所 属 的 数据 库 目录 之 

后 。 但 default 数 据 库 是 个 例外 ， 其 在 servhive/warehouse 下 并 没 

有 对 应 一 个 数据 库 目录 。 因 此 default 数 据 库 中 的 表 目 录 会 直接 

位 于 /user/hive/warehouse 目 录 之 后 。 


步骤 044 — 保存 并 执行 作业 。 


步骤 05 作业 成 功 执行 后 ， 在 Hive 里 查询 test.weblogs 表 ， 结 果 如 
下 所 示 。 


hive» select count(*) from test.weblogs; 
445454 
hive> 


可 以 看 到 ， 向 test.weblogs 表 中 导入 了 445454 条 数据 。 
5.4 ”执行 Hive 的 HiveQL 语句 


在 这 个 示例 中 演示 如 何 用 Kettle 执 行 Hive 的 HiveQL 语 句 。 我 们 在 
上 一 节 建 立 的 weblogs 表 上 执行 聚合 查询 ， 同 时 建立 一 个 新 表 保 存 查 询 
结果 。 

(1) 建立 hive 表 ， 装 载 原 始 数 据 (上 一 节 已 经 完成 ) 。 

(2) 建立 一 个 作业 ， 查 询 hive 表 ， 并 将 聚合 数据 写 入 一 个 新 的 
hive 表 。 


501 新 建 一 个 Kettle 作 业 ， 只 有 “START” 和 “SQL” 两 个 作业 
项 ， 如 图 5-13 所 示 。 


BE- 加 


START SQL 
图 5-13 ”执行 Hive HiveQL 语 句 的 作业 

:502/ 建立 hive 的 数据 库 连接 ， 命 名 为 “hive_101”。 配置 过 程 参 
考 5.2 节 。 

步骤 03 共享 数据 库 连 接 (可 选 ) 。 在 “ 主 对 象 树 ”中 选中 *DB 连 
接 ” 一 “hive_101”， 右 击 ， 在 弹出 菜单 中 选择 “共享 "。 共 享 的 数据 
库 连 接 可 以 被 其 他 转换 或 作业 使 用 。 

步骤 044 ”编辑 “SQL” 作 业 项 ， 如 图 5-14 所 示 。 


作业 项 名 称 | | 


BBE [nive 101] v | | sata... | | iat... | | Wizard... 


从 文件 中 得 到 的 SQL 口 


将 SQL 脚本 作为 一 条 语句 发 送 口 
ATER 口 
SQL BI: 


{ " 


47 15/0 


@ Help 


确定 (D) 取消 (C) 


图 5-14 SQL 作业 项 


。 数据 库 连 接 选 择 “hive_101”。 
。 SQL 脚 本 如 下 : 


create table 


weblogs. agg 
as 


select 


client ip, year 


, month 


, month num, count(*) 


from 


weblogs 
group by 


client ip, year 
, month 


, month num; 


5305/4 保存 并 执行 作业 ， 作 业 成 功 执行 后 ， 检 查 hive 表 ， 结 果 如 
下 所 示 。 


hive> select count(*) from test.weblogs agg; 
36616 
hive> 


可 以 看 到 weblogs_agg 表 中 已 经 保存 了 全 部 的 聚合 数据 。 


55 “MapReduce 转 换 示例 


上 一 节 我 们 只 用 一 句 HiveQL 就 生成 了 聚合 数据 ， 本 示例 使 用 
“Pentaho MapReduce” 作 业 项 完成 相似 的 功能 ， 把 细节 数据 汇总 成 聚合 
数据 集 。 当 给 一 个 关系 型 数据 仓库 或 数据 集 市 准备 待 抽取 的 数据 时 ， 
这 是 一 个 常见 的 使 用 场景 。 我 们 把 格式 化 的 weblogs_parse.txt 文 件 作 为 
细节 数据 ， 目 标 是 建立 一 个 聚合 数据 文件 ， 其 中 包含 以 JP 和 年 月 分 组 
统计 的 PV 数 。 


(1) 用 下 面 的 命令 把 weblogs_parse.txt 文 件 上 传 到 HDFS 
的 /user/grid/parse/ 目 录 下 (因为 只 是 功能 演示 ， 本 示例 只 在 文件 中 保留 
了 前 100 行 数据 ) 。 


hadoop fs -put weblogs parse.txt /user/grid/parse/ 


(2) 建立 一 个 用 于 Mapper 的 转换 。 


步骤 014 新 建 一 个 转换 ， 如 图 5-15 所 示 。 


MapReduce Input split Fields User Defined Java Expression MapReduce Output 


图 5-15  Mapperá£i& 


该 转 换 由 “MapReduce Input"^Split Fields"*User Defined Java 
Expression"*MapReduce Output”4 个 步骤 组 成 。 


步 又 02 /编辑 “MapReduce Input” 步 又 ， 如 图 5-16 所 示 。 


MapReduce Input 


Step name |MapReduce Input 


Type Length Precision 
Key field | String v 0 |2 
Value field | string | v [o ||2 
Help OK Cancel 


图 5-16 ”Mapper 转 换 的 MapReduce Input 步 又 
说 明 : 


。 该 步骤 输出 两 个 字段 ， 名 称 是 固定 的 key 和 value， 也 就 是 Map 阶 
段 输入 的 键 值 对 。 

。 Step name: 定义 步骤 的 名 称 。 

。 Key field: Hadoop MapReduce 键 的 数据 类 型 。 

e Value field: Hadoop MapReduce 值 的 数据 类 型 。 


步骤 034 编辑 “Split Fields” 步 又 ， 如 图 5-17 所 示 。 


BR | 


需要 拆 分 的 字段 value v 
nm e 
Enclosure e 
字段 
^ # 新 的 字段 ID — 移 除 ID? 类 型 长 度 精度 Hot | 分 组 符号 小 数 点 符号 K 
1j client ip | i N String | | | | 
A fuli request date i i N String 
3i day | i N String 
ai month : | N String 
5; month num | i N String 
6 year | | N String 
7| hour MENT String 
8; minute i i N String 
9; second ! i N string 
10: timezone i i N Sting 
TE http verb | | N String 
12i uri | N String 
13i http status code | iN String 
14j bytes returned | i N String 
15; referrer | i N : String 
16) user_agent : : N string [v] 
© Help 确定 (Q) || Boh) 


图 5-17 Split Fieldsz UE 


说 明 : 


。 该 步骤 将 输入 的 value 字 段 拆 分 成 16 个 字段 ， 输 出 17 个 字段 
(key 字 上段 没 变 ， 在 3.3 节 曾 提 到 文本 文件 每 行 的 key 是 文件 起 始 


位 置 到 每 行 的 字 节 偏 移 量 ) 。 
。 “分 隔 符 ”字段 输入 一 个 TAB 符 (图 中 没有 显示 出 来 ) 。 
。 拆 分 成 的 所 有 16 个 字段 都 是 String 类 型 。 


步骤 04 / 编辑 “User Defined Java Expression” 步 又 ， 如 图 5-18 所 示 。 


User Defined Java Expression 


步骤 名 称 | 


Fields: 


^ # New field Java expression Value type Length 


1 new key | clientip+' '+year+' '+ month num | String 
2 new value | I | Integer 


Pre | 


n 


|© Help| | “确定 (0) 取消 (C) | 


图 5-18 User Defined Java Expression 3% 


说 明 : 
。 该 步骤 为 数据 流 中 增加 两 个 新 的 字段 ， 名 称 分 别 定 义 为 


new_key 和 new_valueo 

e new key = E& BY (& 3E X. X client ip + \t + year + \t + 
month_num， 将 IP 地 址 、 年 份 、 月 份 和 字段 间 的 两 个 TAB 符 拼 
接 成 一 个 字符 串 。 

。 new_value 字 段 的 值 为 1， 数 据 类 型 是 整数 。 

。 该 步骤 输出 19 个 字段 。 


步骤 05 4 编辑 “MapReduce Output” 步 骤 ， 如 图 5-19 所 示 。 


MapReduce Output 


step name |MapReduce Output 


Key field |new key 


Value field |new_value 


| Help || OK || Cancel - 


图 5-19 ”Mapper 转 换 的 MapReduce Outputzb JE 
说 明 : 该 步骤 输出 “new_key” 和 “new_value” 两 个 字段 ， 即 Map 阶 
段 输出 的 键 值 对 。 
+06 / 将 转换 保存 为 aggregate_mapperktr。 
(3) 建立 一 个 用 于 Reducer 的 转换 。 
步骤 014 新建 一 个 转换 ， 如 图 5-20 所 示 。 


国 一 一 > 


= 
xj 
MapReduce Input Group by MapReduce Output 


图 5-20 Reducerí£if 


该 转换 由 “MapReduce Input"*Group by”“MapReduce Output” 三 个 步 
又 组 成 。 


+02 4 编辑 “MapReduce Input” 步 骤 ， 如 图 5-21 所 示 。 


MapReduce Input 


Step name |MapReduce Input | 


Type Length Precision 
Key field [String v |o Ji2 | 
Value field | integer ~v |o IE | 
Help OK Cancel 


图 5-21 ”Reducer 转换 的 MapReduce Input 步 又 


说 明 : 该 步骤 输出 两 个 字段 ， 名 称 是 固定 的 key 和 value，key 对 应 
Mapper 转 换 的 new_key 输 出 字段 ，value 对 应 Mapper 转 换 的 new_value 输 
出 字段 。 


步骤 03 4 编辑 “Group by” 步 又 3 如 图 5-22 所 示 。 


步骤 名 称 [ 
包括 所 有 的 行 ? O 
9 
总 返回 一 个 结果 行 口 
构成 分 组 的 字段 : 
^ # 分 组 字段 BTE 
1i key [y] 
RA: 
入 # 名 称 Subject | 类 型 È| 获取 查询 字段 
linew value ivalue RH | 


@ Help 确定 (OQ) 取消 (G) 


图 5-22 Group by 步骤 


说 明 : 该 步骤 按 key 字 段 分 组 〈key 字 段 的 值 就 是 client ip + \t + 
year + X' + month num) ， 对 每 个 分 组 的 value 求 和 ， 每 组 的 合计 值 定 
义 为 一 个 新 的 字段 new_value。 注 意 ， 此 处 的 new_value 和 Mapper 转 换 
输出 的 new_value 字 段 含义 是 不 同 的 。Mapper 转 换 输出 的 new_value 字 
段 对 应 这 里 的 Subject 字 段 值 。 


步骤 044 编辑 “MapReduce Output" 步 骤 ， 如 图 5-23 所 示 。 


MapReduce Output 


Step name |MapReduce Output 


Key field — key v 


Value field new. value id 


Help OK Cancel 


图 5-23 ”Reducer 转 换 的 MapReduce Output 步 又 


说 明 : 输出 Reducer 处 理 后 的 键 值 对 ， 这 就 是 我 们 想 要 的 结果 。 


步骤 05 将 转换 保存 为 aggregate_reducer.ktr。 


(4) 建立 一 个 调用 MapReduce 步 又 的 作业 ， 使 用 mapper 和 reducer 
转换 。 


SROI 新 建 一 个 作业 ， 如 图 5-24 所 示 。 


START Pentaho MapReduce 
5-24 Pentaho MapReducefFill 


La » 


步骤 024 编辑 “Pentaho MapReduce" 作 业 项 ， 如 图 5-25 人 图 5-28 所 
7ho 


Pentaho MapReduce 


Name: |Pentaho MapReduce | 


Hadoop Job Name: [aggregate le 


Mapper -.. Combiner) Reducer | Job Setup  Cluster| User Defined 


Look in: 

Mapper Transformation: |/home/grid/data-integration/test/aggregate mapper.ktr le Browse... 
Mapper Input Step Name: [MapReduce Input le 

Mapper Output Step Name: |MapReduce Output le 


| Help | OK || Cancel 


图 5-25 Pentaho MapReduce 作 业 项 的 Mapper 标 签 


Pentaho MapReduce 


Name: [Pentaho MapReduce | 


Hadoop Job Name: [aggregate e 


Mapper | Combiner Reducer. Job Setup Cluster| User Defined 


Look in: 

Reducer Transformation: | /home/grid/data-integration/test/aggregate_reducer.ktr Browse... 
Reducer Input Step Name: | MapReduce Input e 

Reducer Output Step Name: — | MapReduce Output e 


Reduce single threaded: 


" Help i OK P Cancel 


图 5-26 Pentaho MapReduce 作 业 项 的 Reducer 标 签 


Pentaho MapReduce 


Name: [Pentaho MapReduce | 


Hadoop Job Name: |aggregate le 


Mapper Combiner | Reducer (Job Setup \ Cluster| User Defined 


Suppress Output of Map Key: 加 | 
Suppress Output of Map Value: 口 
Suppress Output of Reduce Key: 口 


Suppress Output of Reduce Value: O 


Input Path: |/user/grid/parse le 
Output Path: Juser/grid/aggregate mr le 
Input Format: org.apache.hadoop.mapred.TextinputFormat le 
Output Format: org.apache.hadoop.mapred.TextOutputFormat le 


Clean output path before execution: (vi 


| Help || OK || Cancel 


图 5-27 Pentaho MapReduce 作 业 项 的 job Setup 标 签 


Pentaho MapReduce 


Name: |Pentaho MapReduce 


Hadoop Job Name: | aggregate 


Mapper | Combiner | Reducer | Job Setup Cluster .. User Defined 


Hadoop Cluster: [hadoop local | || Edit... || New... 

Number of Mapper Tasks: |1 e 
Number of Reducer Tasks: |1 e 
Enable Blocking: 四 

Logging Interval: zz eo 


Cancel 


图 5-28 Pentaho MapReduce 作 业 项 的 Cluster 标 签 


说 明 : 需要 编辑 Mapper、Reducer、job Setup、 Cluster 4 个 标签 
I ， 每 个 标签 页 上 的 选项 及 定义 分 别 如 表 5-4~~ 表 5-7 所 示 。 


表 5-4 ” ”Mapper 标签 选项 


Look in WA Browse 按钮 的 查找 位 置 ， Local 指 本 地 文件 系统 ，Repository by Name 
指 Kettle 的 repository 


Mapper Transformation 作业 中 执行 mapping 功能 的 转换 
Mapper Input Step Name 接收 mapping 数据 的 步骤 名 ， 必 须 是 一 个 MapReduce Input 步骤 的 名 称 


Mapper Output Step Name mapping 输出 步骤 名 ， 必 须 是 一 个 MapReduce Output 步骤 的 名 称 
表 5-5 ”Reducer 标 签 选项 


Look in 设置 Browse 按钮 的 查找 位 置 : Local 指 本 地 文件 系统 ，Repository by Name 
指 Kettle 的 repository 


作业 中 执行 reducing Site 


Reducer Input Step Name 接收 reducing 数据 的 步骤 名 ， 必 须 是 一 个 MapReduce Input 步骤 的 名 称 
Reducer Output Step Name | reducing 输出 步骤 名 ， 必 须 是 一 个 MapReduce Output 步骤 的 名 称 


Reduce single threaded 是 否 使 用 单线 程 转换 执行 引擎 执行 reducer 转换 。 不 选 时 使 用 正常 的 多 线程 
转换 引擎 。 单 线程 能 够 在 处 理 很 多 小 分 组 输出 时 降低 开销 


表 5-6 job Setup 标 签 选 项 


选项 定义 

Suppress Output of | 如 果 选 中 ，Mapper 转换 输出 的 键 将 被 替换 为 NullWritable (NullWritable 是 一 个 非常 

Map Key 特殊 的 Writable 类 型 ， 序 列 化 不 包含 任何 字符 ， 仅 仅 相 当 于 个 占 位 符 。 在 使 用 
mapreduce 时 ，key 或 者 value 在 无 须 使 用 时 ， 可 以 定义 为 NullWritable。) 


Suppress Output of | 如 果 选 中 ，Mapper 转换 输出 的 值 将 被 替换 为 NullWritable 
Map Value 


Suppress Output of | 如 果 选 中 ，Reducer 转换 输出 的 键 将 被 蔡 换 为 NullWritable。 要 求 Reducer 转换 不 能 

Reduce Key 是 一 个 “Identity Reducer” (Identity Reducer 对 于 输入 键 值 对 不 进行 任何 处 理 而 直 
接 输出 。) 

Suppress Output of | 如 果 选 中 ，Reducer 转换 输出 的 值 将 被 蔡 换 为 NullWritable。 要 求 Reducer 转换 不 能 


Reduce Value 是 一 个 “Identity Reducer” 


Input Path 一 个 以 逗号 分 陋 的 HDFS 目录 列表 ， 目 录 中 存储 的 是 MapReduce 要 处 理 的 源 数 据 文件 
Output Path 存储 MapReduce 作业 输出 数据 的 HDFS 目录 

Input Format 描述 输入 格式 的 类 名 

Clean output path | 如 果 选 中 ， 在 MapReduce 作业 被 调度 执行 前 ， 先 删除 输出 目录 


before execution 


表 5-7 Cluster 标签 选项 


选项 
Hadoop Cluster 选择 、 编 辑 、 新 建 一 个 Hadoop 集群 (定义 Hadoop 集群 参考 5.2 节 。) 


Number of Mapper | 分 配 的 mapper 任务 数 ， 由 输入 的 数据 量 所 决定 。 典 型 的 值 为 10~100。 非 CPU 密集 
Tasks 型 的 任务 可 以 指定 更 高 的 值 


Number of | 分 配 的 reducer 任务 数 。 一 般 来 说 ， 该 值 设置 得 越 小 ，reduce 操作 启动 得 越 快 ， 设 置 
Reducer Tasks 的 越 大 ，reduce 操作 完成 得 更 快 。 加 大 该 值 会 增加 Hadoop 框架 的 开销 ， 但 能 够 使 负 


载 更 加 均衡 。 如 果 设 置 为 0， 则 不 执行 reduce 操作 ，mapper 的 输出 将 作为 整个 
MapReduce 作业 的 输出 

Enable Blocking 如 果 选 中 ， 作 业 将 等 待 每 一 个 作业 项 完成 后 再 继续 下 一 个 作业 项 ， 这 是 Kettle 感知 
Hadoop 作业 状态 的 唯一 方式 。 如 果 不 选 ，MapReduce 作业 会 自己 执行 ， 而 Kettle 在 
提交 MapReduce 作业 后 立即 会 执行 下 一 个 作业 项 。 除 非 选中 该 项 ， 和 否则 Kettle 的 错 
误 处 理 在 这 里 将 无 法 工作 


Logging Interval 志 消 息 间 隔 的 秒 数 


步骤 034 将 作业 保存 为 aggregate_mr.kjb。 
(5) 执行 作业 并 验证 输出 。 
步骤 01 Á 执行 下 面 的 命令 启动 Hadoop 的 historyservero 


$HADOOP HOME/sbin/mr-jobhistory-daemon.sh start historyserver 


步骤 02 执行 aggregate_mrkjb 作 业 。 
步骤 03 4 检查 Hadoop 的 输出 文件 ， 结 果 如 下 所 示 。 


[root@cdhl~]#hadoop dfs -cat /user/grid/aggregate mr/part-00000 
DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 


11.308.46.48 2012 06 1 
13.35.602.684 2012 06 il 
3.626.41.322 2012 06 1 
13.640.53.680 2012 06 2 
14.323.74.653 2012 06 5 
14.683.628.625 2012 06 1 
14.688.668.57 2012 06 2 
1526815379: 48 72012 06 2 
922/598:53061 ile 2072 06 4 
3225165611136 2012 06 2 
325.83.602.85 2012 06 1 
SES HESS ESO CORY 06 1 
361 63117-30 2012 06 21 
363.652.18.65 2012 06 5 
368.10.43.678 2012 06 1 
43.60.688.623 2012 06 1 
45.84.87. 2012 06 1 
57.618.684.654 2012 06 3 
58.40.07.17 2012 06 7 
612:2575072:5653: 22012 06 7 
654.02.7.70 2012 06 4 
665.81.321.668 2012 06 8 
682.3.16.08 2012 06 3 
81.306.600.82 2012 06 6 


可 以 看 到 ，/user/grid/aggregate_mr 目 录 下 生成 了 名 为 part-00000 的 
输出 文件 ， 文 件 中 包含 以 JP 和 年 月 分 组 的 PV 数 。 


5.6 ”Kettle 提 交 Spark 作 业 


Kettle {8 5233 MapReducefFill , X PJ bhi “Spark Submit” 作 业 
项 ， 向 CDH 5.3 以 上 、HDP 2.3 以 上 、Amazon EMR 3.10 以 上 的 Hadoop 
平台 提交 Spark 人 作业。 在 本 示例 中 ， 我 们 先 在 Hadoop 集 群 中 安装 


Spark， 然 后 修改 并 执行 Kettle 安 装 包 中 自 带 的 wordcount 作 业 例 子 ， 说 
明 如 何在 Kettle 中 提交 Spark 作 业 。 


5.6.1 ”安装 Spark 
1. 安装 前 准备 


(1) 参考 4.2 节 安装 Apache Hadoop 集 群 。 我 们 将 在 4.2 节 安装 好 的 
Hadoop 集 群 环境 上 安装 Sparko 


(2) 参考 5.2 节 安装 Hive。 我 们 将 用 SparkSQL 查 询 Hive 表 中 的 数 
据 。 


(3) 从 http:/spark.apache.org/downloads.html 下 载 Spark 安 装 包 。 
注意 ， 如 果 要 用 SparkSQL 查 询 Hive 的 数据 ， 一 定 要 注意 Spark 和 Hive 的 
版 本 兼容 性 问题 ， 在 Hive 源 码 包 的 pom.xml 文 件 中 可 以 找到 匹配 的 
spatk 版 本 。 


2. 安装 配置 Spark 


# 解压 缩 安 装 包 
tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz 


# 建立 软 连接 
ln -s spark-1.6.0-bin-hadoop2.6 spark 


# 配置 环境 变量 
vi /etc/profile.d/spark.sh 


# 增加 如 下 两 行 
export SPARK HOME-/home/grid/spark-1.6.0-bin-hadoop2.6 
export PATH-$PATH:$SPARK HOME/bin:$SPARK HOME/sbin 


4 建立 spark-env.sh 

cd /home/grid/spark/conf/ 

cp spark-env.sh.template spark-env.sh 
vi spark-env.sh 


# 增加 如 下 配置 

export JAVA HOME-/home/grid/jdk1.7.0 75 

export HADOOP HOME-/home/grid/hadoop-2.7.2 

export HADOOP CONF DIR-$HADOOP HOME/etc/hadoop 

export SPARK HOME-/home/grid/spark-1.6.0-bin-hadoop2.6 
SPARK MASTER IP-zmaster 

SPARK LOCAL DIRS-/home/grid/spark 

SPARK DRIVER MEMORY-1G 


# 配置 slaves 
cd /home/grid/spark/conf/ 
vi slaves 


# 增加 如 下 两 行 
slave1 
slave2 


4 将 配置 好 的 spark-1.6.0-bin-hadoop2.6 文 件 远程 复制 到 相对 应 的 从 机 中 : 
scp -r spark-1.6.0-bin-hadoop2.6 slave1:/home/grid/ 
scp -r spark-1.6.0-bin-hadoop2.6 slave2:/home/grid/ 


# 配 置 yarn 
vi /home/grid/Hadoop-2.7.2/etc/hadoop/yarn-site. xml 


# 修改 如 下 属性 

<property> 
<name>yarn.nodemanager .resource.memory-mb</name> 
<value>2048</value> 

</property> 


3. RinlSpark 


$SPARK HOME/sbin/start-all.sh 


启动 完成 后 查看 spark UI， 如 图 5-29 所 示 。 


Spark! ıso Spark Master at spark://master:7077 


URL: spark://master: 7077 

REST URL: spark //master 6066 

Alive Workers: 2 

Cores in use: 2 Total, 0 Used 

Memory in use: 2.0 GB Total, 0.0 B Used 
Applications: 0 Running. 0 Completed 
Drivers: 0 Running, 0 Completed 

Status: ALIVE 


Workers 

Worker Id Address State Cores Memory 
vorker-20160321144138-192 168 56 102-35086 192 168 56. 10235086 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 
vorker-2016032 1144 138-192 168.56 103-46172 192 168 56. 103:46172 ALIVE 1 (0 Used) 1024.0 MB (0.0 B Used) 


Running Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


Completed Applications 


Application ID Name Cores Memory per Node Submitted Time User State Duration 


图 5-29 Spark UI 


4. 测试 Spark 


# 把 一 个 本 地 文本 文件 上 传 到 HDFS， 命 名 为 jnput 
hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input 


4 登录 Spark 的 Master 节 点 ， 进 入 spark-shell 
cd $SPARK HOME/bin 
./spark-shell 


# 运行 wordcount 
scala» val 
file=sc.textFile("hdfs://master :9000/user/grid/input" ) 


16/03/21 15:07:16 INFO storage.MemoryStore: Block broadcast_3 
stored as values in memory 

(estimated size 323.2 KB, free 349.6 KB) 

16/03/21 15:07:16 INFO storage.MemoryStore: Block 
broadcast 3 pieceO stored as bytes in 

memory (estimated size 19.7 KB, free 369.3 KB) 

16/03/21 15:07:16 INFO storage.BlockManagerInfo: Added 
broadcast 3 pieceO in memory on 

localhost:54879 (size: 19.7 KB, free: 517.4 MB) 

16/03/21 15:07:16 INFO spark.SparkContext: Created broadcast 
3 from textFile at <console>:27 


file: org.apache.spacr.rdd.RDD[String] = MapPartitionsRDD[6] 
at textFile at <console>:27 


scala» val count-file.flatMap(line -» line.split(" 
")).map(word => (word,1)).reduceByKey( ^? ) 


16/03/21 15:09:38 INFO mapred.FileInputFormat: Total input 
paths to process : 1 

count: org.apache.spark.rdd.RDD[(String, Int)] - 
ShuffledRDD[9] at reduceByKey at 

<console>: 29 


scala> count.collect() 


resi: Array[(String, Int)] = Array((Hadoop,1), (Commodity,1), 
(For,1), (this, 3), (country). 

(under,1), (it,1), (The,4), (Jetty,1), (Software,2), 
(Technology,1), 

(<http://www.wassenaar.org/>,1), (have,1), 
(http://wiki.apache.org/hadoop/,1), (BIS,1), 

(classified,1), (This,1), (following,1), (which,2), 
(security,1), (See,1), (encryption,3), 

(Number,1), (export,1), (reside,1), (for,3), ((BIS),,1), 
(any,1), (at:,2), (software,2), 

(makes,1), (algorithms.,1), (re-export,2), (latest,1), 
(your, 1), (SSL,1), (the,8), 

(Administration,1), (includes,2), (import,,2), (provides,1), 
(Unrestricted,1), (country's,1), 

(if,1), (740,13),1), (Commerce,,1), (country,,1), 
(software.,2), (concerning,1), (laws,,1), 

(source,1), (possession,,2), (Apache,1), (our,2), 
(written,1), (as,1), (License,1), 

(regulations,... 


5。 测 试 SparkSQL 


在 $SPARK_HOME/conf 目 录 下 创建 hive-site.xml 文 件 ， 然 后 在 该 配 
置 文件 中 添加 hive.metastore.uris 属 性 : 


<configuration> 
<property> 
<name>hive.metastore.uris</name> 


<value>thrift://master :9083</value> 
</property> 
</configuration> 


启动 hive metastore 服 务 : 


hive --service metastore > /tmp/grid/hive metastore.log 2>&1 
& 


启动 SparkSQL CLI: 


spark-sql --master spark://master:7077 --executor-memory 1g 


使 用 HQL 语 句 对 Hive 数 据 进 行 查询 : 


spark-sql» create database test; 

16/03/22 16:53:33 WARN ObjectStore: Failed to get database 
test, returning 

NoSuchObjectException 

OK 

spark-sql> use test; 

OK 

spark-sql> create table t1 (name string); 

OK 

load data local inpath '/home/grid/a.txt' into table t1; 
Loading data to table test.t1 

Table test.t1 status: [numFiles=1, totalSize-4] 

OK 

spark-sql» select * from t1; 

aaa 

spark-sql» select count(*) from t1; 

1 

spark-sql» drop table t1; 

OK 


5.6.2 ”配置 Kettle 向 Spark 集 群 提交 作业 
1. 环境 


4 & CentOS release 6.4 虚 拟 机 ，IP 地 址 为 : 192.168.56.101 、 
192.168.56.102、192.168.56.103、192.168.56.104。 


e 192.168.56.101 是 Spark 集 群 的 主机 ， 运 行 Master 进 程 。 

e 192.168.56.102、192.168.56.103 是 Spark 的 从 机 ， 运 行 Worker 进 
程 。 

e 192.168.56.104 安装 Kettle, 安装 目录 为 /home/grid/data- 


integrationo 
HadoophRAS: 2.7.20 
Spark 版 本 : 1.5.0. 
Kettle 版 本 : 6.0。 


2. 配置 
(1) 在 PDI 主 机 上 安装 spark 客 户 端 


将 Spark 的 安装 目录 和 相关 系统 环境 设置 文件 复制 到 PDI 所 在 主 
机 。 在 192.168.56.101 上 执行 以 下 命令 : 


scp -r /home/grid/spark 192.168.56.104:/home/grid/ 
scp /etc/profile.d/spark.sh 192.168.56.104:/etc/profile.d/ 


下 面 的 配置 均 在 192.168.56.104 上 执行 。 
(2) 编辑 相关 配置 文件 


在 /etc/hosts 文 件 中 加 如 下 两 行 用 于 域名 解析 ，master 和 kettle 为 各 
自主 机 的 hostname: 


192.168.56.101 master 
192.168.56.104 kettle 


编辑 spark-env.sh 文 件 ， 设 置 环境 变量 ， 写 如 下 两 行 : 


export HADOOP CONF DIR-/home/grid/data- 
integration/plugins/pentaho-big-data-plugin/hadoop- 
configurations/cdh54 

export SPARK HOME-/home/grid/spark 


编辑 spark.sh， 设 置 环境 变量 ， 写 如 下 三 行 : 


export SPARK_HOME=/home/grid/spark 

export PATH=$PATH : $SPARK_HOME/bin :$SPARK_HOME/sbin 
export HADOOP_CONF_DIR=/home/grid/data- 
integration/plugins/pentaho-big-data-plugin/hadoop- 
configurations/cdh54 


3. 测试 
(1) 修改 Kettle 自 带 的 wordcount 作 业 例 子 。 


cp /home/grid/data-integration/samples/jobs/Spark\ 
Submit/SparkN submit.kjb /home/grid/data- 
integration/test/Spark\ Submit\ Sample.kjb 


在 Kettle FH fJ F /home/grid/data-integration/test/Spark\ 
Sample.kjb 文 件 ， 如 图 5-30 所 示 。 


Submit 


Qux (ZY Spark Submit Sample 53 
> IJR 100% | v | 


SETUP INSTRUCTIONS: 

1. Download and unpack spark binary distribution 

2. Copy your CDH cluster configuration files (core-site.xml, hdfs-site.xml and yarn-si 
3. Make sure HADOOP CONF DIR/YARN CONF DIR environment variable is available | 
4. Make sure spark's spark.yarn.jar configuration parameter is pointing to cloudera' 
5. Edit Spark PI job entry's paths to spark-submit utility and application jar to matcr 


* NOTE: By default cloudera manager puts spark-assembly.jar to hdfs://«hdfs file sy 


START Spark Submit Sample Success 


图 5-30 ”Kettle 自 带 的 Spark 例 子 


(2) 编辑 Spark Submit Sample 作 业 项 ， 填 写 如 图 5-31 所 示 的 信 
Bo 


Entry Name: 


Spark Submit Sample| | 


(Job Setup -. Parameters | 


Spark Submit Utility: 
(/home/grid/spark/birys park-submit 


Master URL: 


Epark://master: 7077 


Application Jar: 
|/home/gricl/spark/lib/spark-examples-1.5 0-hadoop2.6 Ojar o | à6B)... | 


Class Name: 


[org.apache.s park.examples.JavaWordCount 


Arguments: 


[input 


Memory Allocation- 
Executor: 


e 


O Enable Blocking 


[A Heln. [asset 1[ msn] 


图 5-31 Spark Submit 作 业 项 


Job Setup 标 签 页 的 配置 选项 及 定义 如 表 5-8 所 示 。 


表 5-8 Spark Submit 作 业 项 选项 


Entry Name 定义 作业 项 的 名 称 ， 保 持 默认 

Spark-Submit Utility 提交 Spark 作业 的 脚本 ， 使 用 spark-submit 

Master URL Spark 集群 的 URL， 如 果 Spark WAE YARN 上 ， 文 持 两 个 选项 : 

(1) Yarn-Cluster，Spark 驱动 程序 作为 一 个 YARN Application Master 的 线程 运 
行 ， 类 似 于 MapReduce 的 工作 方式 。 

(2) Yarn-Client, Spark 驱动 程序 作为 一 个 YARN 客户 端 运行 。 

我 们 使 用 的 Spark 自 带 的 standalone 部 署 方式 ， 所 以 这 里 填写 


spark://master:7077 

Application Jar 应 用 相关 的 JAR 包 

Class Name 应 用 相关 的 类 名 

Arguments 传 给 main 方法 的 参数 ， 这 里 就 是 需要 统计 词 频 的 文件 名 

Executor 分 配给 每 个 执行 器 进程 的 内 存 大 小 ， 使 用 JVM 格式 ， 如 512m. 2g 等 

Driver 每 个 Spark 驱动 程序 使 用 的 内 存 大 小 ， 使 用 JVM 格式 ， 如 512m. 2g 等 

Enable Blocking 如 果 选 中 ， 后 续 作 业 项 将 等 待 ， 直 到 Spark 作业 运行 完 。 如 果 不 选 ，Spark fF 
业 一 旦 提交 ，Kettle 作业 就 会 继续 执行 下 面 的 作业 项 


(3) 执行 例子 。 


在 HDFS 上 准备 测试 文件 /user/grid/input， 执 行 Spark Submit Sample 
作业 。Spark UI 控制 台 如 图 5-32 所 示 。 


hadoop fs -put /home/grid/hadoop-2.7.2/README.txt input 


Spak iso Spark Master at spark://mastor:7077 
URL: spark manger 7077 


REST URL: «pac (mast 
Alive Worker: > 
Cen 


Worker Id Address State Co Memery 
»he-20160400093651-192 168 56 102 192 158.56 102 36211 V ( 1024.0 MD (0.0 B Und) 
192 168 55 103.3811 ALI (0 Used) 1024.0 MB 0.0 B Led 


Running Applications 


Application ID Submitted Time Duration 


Completed Applications 


Application 1D Con Mornory per Node Submitted Time e Duration 
< 235725207 evaord count 7 zT z 


10040 VB 
1040 Ve 
10240 MB 
10240 MB 
10240 we 


图 5-32 Spark UI 看 到 提交 的 Spark 作 业 
5.7 小 结 


(1) 通过 提交 适当 的 参数 ，Kettle 可 以 连接 Hadoop 的 HDFS、 
MapReduce、Zookeeper、Oozie 和 Spark 服 务 。 


(2) Kettle 的 数据 库 连 接 类 型 中 支持 Hive、Hive2 和 Impala。 


(3) 可 以 使 用 Kettle 导 出 导入 Hadoop 集 群 中 (HDFS、Hive 等 ) 
的 数据 。 


(4) Kettle 支 持 执行 Hive 的 HiveQL 语 句 。 


(5) 可 以 使 用 “Pentaho MapReduce” 作 业 项 在 Hadoop 中 执行 基于 
MapReduce 的 Kettle 转 换 。 


(6) Kettle 支 持 向 Spark 集 群 提交 作业 。 


第 6 章 
< 建立 数据 仓库 示例 模型 > 


上 一 章 开 头 提 到 ETL 开 发 的 三 种 方式 : 使 用 工具 、 使 用 SQL、 使 
用 程序 语言 。 从 本 章 开 始 ， 介 绍 在 Hadoop 上 使 用 SQL 实现 数据 仓库 的 
ETL 过 程 。 我 们 会 引入 一 个 典型 的 订单 业务 场景 作为 示例 ， 说 明 多 维 
模型 及 其 相关 ETL 技 术 在 Hadoop 上 的 具体 实现 。 示 例 的 Hadoop 环 境 使 
用 4.4 节 安装 的 CDH 5.7.0 4 节点 集群 。 


本 章 首先 介绍 一 个 小 而 典型 的 销售 订单 示例 ， 描 述 业务 场景 ， 说 
明示 例 中 包含 的 实体 和 关系 ， 并 在 MySQL 数 据 库 上 建立 源 数据 库 表 并 
生成 初始 的 数据 。 我 们 要 在 Hive 中 创建 源 数 据 过 渡 区 和 数据 仓库 的 
表 ， 因 此 需要 了 解 与 Hive 创 建 表 相关 的 技术 问题 ， 包 括 使 用 Hive 建 立 
传统 多 维 数据 仓库 上 时， 如何 选择 适当 的 文件 格式 ，Hive 支 持 哪些 表 类 
型 ， 向 不 同类 型 的 表 中 装载 数据 时 具有 哪些 不 同 特性 。 我 们 将 以 实验 
的 方式 对 这 些 问题 加 以 说 明 。 在 此 基础 上 ， 我 们 就 可 以 编写 Hive 的 
HiveQL 脚 本 ， 建 立 过 渡 区 和 数据 仓库 中 的 表 。 本 章 最 后 会 说 明日 期 维 
度 的 数据 装载 方式 及 其 实现 脚本 。 


61 ”业务 场景 
1. 操作 型 数据 源 


示例 的 操作 型 系统 是 一 个 销售 订单 系统 ， 初 始 时 只 有 产品 、 客 
户 、 销 售 订单 三 个 表 ， 实 体 关 系 图 如 图 6-1 所 示 。 


sales order 


order number <pi> «WM» 
customer numbercfiz? 
product code <f1i1> 
arder date 


entry date 
order amount 


product customer 
product code <pi> 4M» +O customer number £pi» £M» 
product name | customer name 
product catezory | customer street address 
1 customer zip c 
customer city 
customer stat 
MA ^ ^ 
图 6-1 销售 订单 源 系 统 


这 个 场景 中 的 表 及 其 属性 都 很 简单 。 产 品 表 和 客户 表 属于 基本 信 
息 表 ， 分 别 存储 产品 和 客户 的 信息 。 产 品 只 有 产品 编号 、 产 品名 称 、 
产品 分 类 3 个 属性 ， 产 品 编号 是 主键 ， 唯 一 标识 一 个 产品 。 客 户 有 6 个 
属性 ， 除 客户 编号 和 客户 名 称 外 ， 还 包含 省 、 市 、 街 道 、 邮 编 4 个 客户 
所 在 地 区 属性 。 客 户 编号 是 主键 ， 唯 一 标识 一 个 客户 。 在 实际 应 用 
中 ， 基 本 信息 表 通 常 由 其 他 后 台 系统 维护 。 销 售 订单 表 有 6 个 属性 ， 订 

号 是 主键 ， 唯 一 标识 一 条 销售 订单 记录 。 产 品 编号 和 客户 编号 是 两 
个 外 键 ， 分 别 引用 产品 表 和 客户 表 的 主键。 另外 三 个 属性 是 订单 时 
间 、 登 记 时 间 和 订单 金额 。 订 单 时 间 指 的 是 客户 下 订单 的 时 间 ， 订 单 
金额 属性 指 的 是 该 笔 订单 需要 花费 的 金额 ， 这 些 属性 的 含义 很 清楚 。 
订单 登记 时 间 表 示 订 单 录入 的 时 间 ， 大 多 数 情况 下 它 应 该 等 同 于 订单 
时 间 。 如 果 由 于 某 种 情况 需要 重新 录入 订单 ， 还 要 同时 记录 原始 订单 
的 时 间 和 重新 录入 的 时 间 ， 或 者 出 现 某 种 问题 ， 订 单 登记 时 间 滞 后 于 
下 订单 的 时 间 (11.5 节 “迟到 的 事实 "会 讨论 这 种 情况 ) ， 这 两 个 属性 
值 就 会 不 同 。 

源 系 统 采用 关系 模型 设计 ， 为 了 减少 表 的 数量 ， 这 个 系统 只 做 到 
了 2NF。 地 区 信息 依赖 于 邮编 ， 所 以 这 个 模型 中 存在 传递 依赖 。 


2. 销售 订单 数据 仓库 模型 设计 


我 们 使 用 2.2 世 介绍 的 4 步 建 模 法 设计 星 型 数据 仑 库 模 型 。 


(1) 选择 业务 流程 。 在 本 示例 中 只 涉及 一 个 销售 订单 的 业务 流 
程 。 
(2) 声明 粒度 。ETL 处 理 时 间 周 期 为 每 天 一 次 ， 事 实 表 中 存储 最 
细 粒 度 的 订单 事务 记录 。 
(3) 确认 维度 。 显 然 产品 和 客户 是 销售 订单 的 维度 。 日 期 维度 用 
业务 集成 ， 并 为 数据 仓库 提供 重要 的 历史 视角 ， 每 个 数据 仓库 中 都 
应 该 有 一 个 日 期 维度 。 订 单 维 度 是 特意 设计 的 ， 用 于 后 面 说 明 退 化 维 
度 技 术 。 我 们 将 在 10.5 节 详细 介绍 退化 维度 。 
(4) 确认 事实 。 销 售 订单 是 当前 场景 中 唯一 的 事实 。 
示例 数据 仓库 的 实体 关系 图 如 图 6-2 所 示 。 


= product_dim = customer_dim 
product sk <pi> «M2 customer sk <pi> «M» 
product_code customer_number 
product_name c customer_name 


customer_street_address 
customer_zip_code 
customer_city 


product_category 
version 
effective_date 


expiry_date customer_state 
i version 
e effective date 
E ON : 
Loe] sales order fact 户 Je expiry date 
orders <£13> 
mer sk <fi2> 
_ DE nd sk <fild 
(‘= order_date_sk<fi4> 
order amount 
order dim date dim 
order sk ipi» «M» date sk ipi» «NM» 
order number date 
sion nonth 
effective date nonth name 
expiry. date quarter 
[X828 


图 6-2 ”销售 订单 数据 仓库 


作为 演示 示例 ， 上 面 实体 关系 图 中 的 实体 属性 都 很 简单 ， 看 属性 
名 字 便 知 其 含义 。 除 了 日 期 维度 外 ， 其 他 三 个 维度 都 在 源 数据 的 基础 
上 增加 了 代理 键 、 版 本 号 、 生 效 日 期 、 过 期 日 期 四 个 属性 ， 用 来 措 述 


维度 变化 的 历史 。 当 维度 属性 发 生变 化 时 ， 依 据 不 同 的 策略 ， 或 生成 
一 条 新 的 维度 记录 ， 或 直接 修改 原 记录 。 日 期 维度 有 其 特殊 性 ， 该 维 
度数 据 一 旦 生成 就 不 会 改变 ， 所 以 不 需要 版 本 号 、 生 效 日 期 和 过 期 日 
期 。 代 理 键 是 维度 表 的 主键 。 事 实 表 引用 维度 表 的 代理 键 作为 自己 的 
外 键 ，4 个 外 键 构 成 了 事实 表 的 联合 主键 。 订 单 金额 是 当前 事实 表 中 的 
唯一 度量 。 


6.2 ”Hive 相 关 配 置 


在 3.5 节 曾经 提 到 Hive 可 以 用 于 原始 数据 和 转换 后 的 数据 仓库 数据 
存储 。 使 用 Hive 作 为 多 维 数据 仓库 的 主要 挑战 是 处 理 渐变 维 (SCD) 
和 生成 代理 键 。 处 理 渐变 维 需 要 配置 Hive 支 持 行 级 更 新 ， 并 在 建 表 时 
选择 适当 的 文件 格式 。 生 成 代理 键 在 关系 数据 库 中 一 般 都 是 用 自 增 列 
(如 MySQL) 或 序列 对 象 (如 Oracle) ， 但 Hive 中 没有 这 样 的 机 制 ， 
必须 用 其 他 方法 实现 。 在 第 8 章 “ 数 据 转 换 与 装载 ?中 将 说 明 渐变 维 的 概 
念 和 Hive 中 生成 代理 键 的 方法 。 


6.2.1 ”选择 文件 格式 


Hive 是 Hadoop 上 的 数据 仓库 组 件 ， 便 于 查询 和 管理 分 布 式 存储 上 
的 大 数据 集 。Hive 提 供 了 一 种 称 为 HiveQL 的 语言 ， 人 允许 用 户 进 行 类 似 
于 SQL 的 查询 。 和 普遍 使 用 的 所 有 SQL 方言 一 样 ， 它 不 完全 遵守 任何 
一 种 ANSI SQL 标准 ， 并 对 标准 SQL 进行 了 扩展 。HiveQL 和 MySQL 的 
方言 最 为 接近 ， 但 是 两 者 还 是 存在 显著 差异 。HiveQL 只 处 理 结构 化 数 
据 ， 并 且 不 区 分 大 小 写 。 默 认 时 Hive 使 用 内 建 的 derby 数 据 库 存储 元 数 
据 ， 也 可 以 配置 Hive 使 用 MySQL、 Oracle 等 关系 数据 库存 储 元 数据 ， 
生产 环境 建议 使 用 外 部 数据 库存 储 Hive 元 数据 。Hive 里 的 数据 最 终 存 
储 在 HDFS 的 文件 中 ， 常 用 的 数据 文件 格式 有 以 下 4 种 : 


« TEXTFILE 

e SEQUENCEFILE 
e RCFILE 

e ORCFILE 


在 深入 讨论 各 种 类 型 的 文件 格式 前 ， 先 看 一 下 什么 是 文件 格式 。 
所 谓 文 件 格式 是 一 种 信息 被 存储 或 编码 成 计算 机 文件 的 方式 。 在 Hive 
中 文件 格式 指 的 是 记录 以 怎样 的 编码 格式 被 存储 到 文件 中 。 当 我 们 处 
理 结构 化 数据 时 ， 每 条 记录 都 有 自己 的 结构 。 记 录 在 文件 中 是 如 何 编 
码 的 就 定义 了 文件 格式 。 不 同文 件 格 式 的 主要 区 别 在 于 它们 的 数据 编 
码 、 上 压缩 率 、 使 用 的 空间 和 磁盘 1/O。 


当 用 户 向 传统 数据 库 中 增加 数据 的 时 候 ， 系 统 会 检查 写 入 的 数据 
与 表 结 构 是 否 匹 配 ， 如 果 不 匹配 则 拒绝 插入 数据 ， 这 就 是 所 谓 的 写 时 
模式 。Hive 与 此 不 同 ， 它 使 用 的 是 读 时 模式 ， 就 是 直到 读 取 时 再 进行 
数据 校 验 。 在 向 Hive 装 载 数据 时 ， 它 并 不 验证 数据 与 表 结 构 是 否 匹 
配 ， 但 这 时 它 会 检查 文件 格式 是 否 和 表 定 义 相 匹配 。 


1. TEXTFILE 


TEXTFILE 就 是 普通 的 文本 型 文件 ， 是 Hadoop 里 最 常用 的 输入 输 
出 格式 ， 也 是 Hive 的 默认 文件 格式 。 如 果 表 定义 为 TEXTFILE ， 则 可 
以 向 该 表 中 装载 以 逗号 、TAB 或 空格 作为 分 隔 符 的 数据 ， 也 可 以 导入 
JSON 格 式 的 数据 。 

文本 文件 中 除了 可 以 包含 普通 的 字符 串 、 数 字 、 日 期 等 简单 数据 
类 型 外 ， 还 可 以 包含 复杂 的 集合 数据 类 型 。 如 表 6-1 所 示 是 Hive 支 持 
STRUCT、MAP 和 ARRAY 三 种 集合 数据 类 型 。 


表 6-1 集合 数据 类 型 


STRUCT 结构 类 型 可 以 通过 “点 ”符号 访问 元 素 内容 。 例 | columnname struct(first string, last 
如 ， 某 个 列 的 数据 类 型 是 STRUCT {first | string) 
STRING, last STRING}， 那 么 第 一 个 元 素 可 以 通 
过 移民 名 .first 来 引用 


MAP MAP 是 一 组 键 / 值 对 元 组 集合 ， 使 用 数组 表示 法 | columnname map(string, string) 
可 以 访问 元 素 。 例 如 ， 如 果 某 个 列 的 数据 类 型 是 
MAP， 其 中 键 / 值 对 是 first‘/John’ 和 last‘/Doe’, 
那么 可 以 通过 守成 多 ['last*] 获 取 最 后 一 个 元 素 的 


值 
ARRAY 数组 是 一 组 具有 相同 类 型 和 名 称 的 变量 集合 。 这 | columnname array(string) 


些 变量 被 称 为 数组 的 元 素 ， 每 个 数组 元 素 都 有 一 
个 编号 ， 编 号 从 0 开始 。 例 如 ， 数 组 值 为 
[‘John’,‘Doe’], MAB 2 个 元 素 可 以 通过 字段 名 
[进行 引用 


Hive 中 默认 的 记录 和 字段 分 隔 符 如 表 6-2 所 示 。TEXTFILE 格 式 每 
一 行 被 默认 为 一 条 记录 。 


表 6-2 ”Hive 中 默认 的 记录 和 字段 分 隔 
in 


对 文本 文件 来 说 ， 每 行 都 是 一 条 记录 ， 因 此 换行 符 可 以 分 隔 记录 
^A (Ctrl-A) 用 于 分 隔 字段 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 \001 表示 


^B (Ctrl+B) 用 于 分 阳 ARRARY 或 STRUCT 中 的 元 素 ， 或 用 于 MAP 中 键 / 值 对 之 间 的 分 隔 。 在 
CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 \002 表示 


用 于 MAP 中 键 和 值 之 间 的 分 隔 。 在 CREATE TABLE 语句 中 可 以 使 用 八进制 编码 的 
\003 表示 


TEXTFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.mapred.TextInputFormat 
org.apache.hadoop.mapred.TextOutputFormat 


示例 1: 以 TAB 为 列 间 分 陋 符 的 文本 文件 


创建 一 个 文本 文件 rooydata.csv， 录 入 四 列 两 行 数 据 ， 列 之 间 用 
TAB 符号 作为 分 隔 符 ， 文 件 内 容 如 下 : 


al 1 b1 c1 
a2 2 b2 c2 
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-- 建立 TEXTFILE 格 式 的 表 : 
use 


test; 
create table 


t textfile(c1 string, c2 int 
, c3 string, c4 


string) 
row format 


delimited fields terminated by 
'Nt' stored as 


textfile; 

-- 向 表 中 导入 数据 : 
load data local 

inpath '/root/data.csv' into table 


t textfile; 
-- 查询 表 : 


select 
* from 


t textfile; 


查询 结果 如 下 所 示 : 


hive» select * from t textfile; 

OK 

al 1 bl c 

a2 2 b2 c2 

Time taken: 0.493 seconds, Fetched: 2 row(s) 


示例 2: JSON 格 式 的 数据 文件 
建立 一 个 json 文 件 /root/simple.json， 内 容 如 下 : 


("foo":"abc","bar":"20090101100000" , "quux": 
("quuxid":1234, 'quuxname" :" sam" Y? 


执行 下 面 的 语句 创建 表 、 靶 载 效 据 、 碍 询 表 。 


-- 根据 实际 目录 添加 hive-hcatalog-core.jar 包 : 
add 


jar /opt/cloudera/parcels/CDH-5.7.0- 
1.cdh5.7.0.p0.45/1ib/oozie/libtools/hive-hcatalog- 
core.jar; 
-- 建立 测试 表 : 
use 


test; 
create table 


my table( 

foo string, 
bar string, 
quux struct« 


quuxid:int 


, quuxname:string>) 
row format 


serde 'org.apache.hive.hcatalog.data.JsonSerDe' 
stored as 


textfile; 
-- 装载 数据 : 
load data local 


inpath '/root/simple.json' into table 


my table; 


-- i: 
select 


foo, bar, quux.quuxid, quux.quuxname from 


my table; 


查询 结果 如 下 所 示 : 


OK 

abc 20090101100000 1234 sam 

Time taken: 22.051 seconds, Fetched: 1 row(s) 
BAa—TSRENGIF, complex jsonz&H £6 4t k RENI 

结构 、 数 组 、 结 构 三 层 诅 套 。 建 立 一 个 json 文 件 rootcomplex.json， 内 

AUF: 


{"docid": "abc", "user": 
{"id":1234, "username": "sami234","name":"sam", "shippingaddress 


":{"addres 
si":"123 main 
st.","address2":"","city":"qdurham", "state": "nc"}, "orders": 


[{"itemid":6789, "orderdate":"11/11/ 
2012"}, {"itemid":4352, "orderdate":"12/12/2012"}]}} 
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-- 建立 测试 表 : 


use test; 
create table complex json ( 
docid string, 
user struct<id: int, 
username: string, 
name: string, 


shippingaddress:struct<address1:string, 
address2:string, 
city: String. 
state: string>, 
orders:array<struct<itemid:int, 
orderdate:string>>> 
) 
row format serde 'org.apache.hive.hcatalog.data.JsonSerDe' 
stored as textfile; 
load data local inpath '/root/complex.json' overwrite into table complex json; 
-- 查询 : 
select docid, user.id, user.shippingaddress.city as city, 
user.orders[0].itemid as order0id, 
user.orders[1].itemid as orderlid 
from complex json; 


查询 结果 如 下 所 示 : 


OK 
abc 1234 durham 6789 4352 
Time taken: 18.744 seconds, Fetched: 1 row(s) 


查询 : 


select docid, user.id, user.orders.itemid from complex json; 


查询 结果 如 下 所 示 : 


OK 
abc 1234 [6789,4352] 
Time taken: 17.755 seconds, Fetched: 1 row(s) 


以 上 例子 中 ，json 串 的 结构 是 固定 的 ， 然 而 实际 应 用 中 结构 可 能 
是 动态 变化 的 ， 我 们 再 看 一 个 用 MAP 类 型 存储 动态 键 一 值 对 的 例子 。 
创建 文件 /root/a.json 文 件 ， 内 容 如 下 : 


{"conflict": 


("liveid":123," 'zhuboid":456, "media":789, "proxy":"abc", "result 
":1000}} 

{"conflict": 
("liveid":123," "zhuboid":456, "media":789, "proxy" :"abc"?) 
("conflict":("liveid":123, "zhuboid":456, "media":789}} 
{"conflict": {"liveid":123, "zhuboid":456}} 
("conflict":("liveid":123]) 


执行 下 面 的 语句 创建 表 、 法 载 数据 、 查 询 表 。 


- - 动态 map 
use 


test; 
drop table 


json tab; 


add jar /opt/cloudera/parcels/CDH-5.7.0- 
1.cdh5.7.0.p0.45/1ib/oozie/libtools/hive-hcatalog- 


core.jar; 


create table 


json tab ( 
conflict map< 


string, string» 


row format 


serde 'org.apache.hive.hcatalog.data.JsonSerDe' 
stored as 


textfile; 
-- 装载 数据 
load data local 


inpath '/root/a.json' overwrite into table 


json tab; 


-- Ej 
select * from 


json tab; 


查询 结果 如 下 所 示 : 


hive> select * from json tab 
OK 


, 


i"liveid":"123","zhuboid":"456","media":"789", "proxy" :"abc"," 


result":"1000") 


("liveid":"123","zhuboid":"456", media" :"789", "proxy": "abc" 
{"liveid":"123","zhuboid":"456", "media":"789"} 
{"liveid":"123","zhuboid":"456"} 


{"liveid":"123"} 
{"liveid":"123"} 


Time taken: 0.134 seconds, Fetched: 6 row(s) 


查询 : 


select 
conflict["media"] from 


json tab; 


查询 结果 如 下 所 示 : 


NULL 
Time taken: 19.629 seconds, 


2. SEQUENCEFILE 


Fetched: 6 row(s) 


我 们 知道 Hadoop 处 理 少量 大 文件 比 大 量 小 文件 的 性 能 要 好 。 如 果 
文件 小 于 Hadoop 定 义 的 块 尺寸 (Hadoop 2.x 默 认 是 128MB) ， 可 以 认 
为 是 小 文件 。 元 数据 的 增长 将 转化 为 NameNode 的 开销 。 如 果 有 大 量 
小 文件 ，NameNode 会 成 为 性 能 瓶颈 。 为 了 解决 这 个 问题 ，Hadoop5 
入 了 sequence 文 件 ， 将 sequence 作 为 存储 小 文件 的 容器 。 

Sequence 文 件 是 由 二 进 制 键 值 对 组 成 的 平面 文件 。Hive 将 查询 转 
换 成 MapReduce 作 业 时 ， 决 定 一 个 给 定 记 录 的 哪些 键 二 值 对 被 使 用 。 
Sequence 文 件 是 可 分 割 的 二 进 制 格式 ， 主 要 的 用 途 是 联合 多 个 小 文 
件 。 


SEQUENCEFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.mapred.SequenceFileInputFormat 
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 


示例 : 


-- 建立 SEQUENCEFILE 格 式 的 表 
USe 


test; 
create table 


t sequencefile(c1 string, c2 int 
, c3 string, c4 


string) 
row format 


delimited fields terminated by 
'Nt' stored as 


sequencefile; 
-- 向 表 中 导入 数据 
-- 与 TEXTFILE 有 些 不 同 ， 因 为 SEQUENCEFILE 是 二 进 制 格式 ， 所 以 需要 从 其 他 表 


向 SEQUENCEFILE 表 插入 数据 。 


Insert 
overwrite table 
t sequencefile select * from 
t textfile; 
- 查询 表 
select 


* from 


t sequencefile; 


3. RCFILE 


RCFILE 指 的 是 Record Columnar File， 是 一 种 高 压缩 率 的 二 进 制 文 
件 格 式 ， 被 用 于 在 一 个 时 间 点 操作 多 行 的 场景 。RCFILEs 是 由 二 进 制 
键 二 值 对 组 成 的 平面 文件 ， 这 点 与 SEQUENCEFILE 非 常 相 似 。 
RCFILE 以 记录 的 形式 存储 表 中 的 列 ， 即 列 存 储 方式 。 它 先 分 割 行 做 水 
平分 区 ， 然 后 分 割 列 做 垂直 分 区 。RCFILE 把 一 行 的 元 数据 作为 键 ， 把 
行 数据 作为 值 。 这 种 面向 列 的 存储 在 执行 数据 分 析 时 更 高 效 。 
RCFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.hive.ql.io.RCFilelInputFormat 
org.apache.hadoop.hive.ql.io.RCFileOutputFormat 


示例 : 


-- 建立 RCFILE 格 式 的 表 
use 


test; 
create table 


t rcfile(c1 string, c2 int 


, c3 string, c4 


string) 
row format 


delimited fields terminated by 
'Nt' stored as 


rcfile; 
-- 向 表 中 导入 数据 
-- 不 能 直接 向 RCFILE 表 中 导入 数据 ， 需 要 从 其 他 表 向 RCFILE 表 插入 数据 。 


insert 
overwrite table 
t rcfile select * from 


t textfile; 
-- 查询 表 


select 
* from 


t rcfile; 
4. ORCFILE 


ORC 指 的 是 Optimized Record Columnar ， 就 是 说 相对 于 其 他 文件 
格式 ， 它 以 更 优化 的 方式 存储 数据 。ORC 能 将 原始 数据 的 大 小 缩减 
75%， 从 而 提升 了 数据 处 理 的 速度 。ORC 比 Text、Sequence 和 RC 文件 
格式 有 更 好 的 性 能 ， 而 且 ORC 是 目前 Hive 中 唯一 支持 事务 的 文件 格 
Tho 


ORCFILE 格 式 的 输入 输出 包 是 : 


org.apache.hadoop.hive.ql.io.orc 


示例 : 


-- 建立 ORCFILE 格 式 的 表 


USe 


test; 
create table 


t orcfile(ci string, c2 int 
, c3 string, c4 


string) 
row format 


delimited fields terminated by 
'Nt' stored as 


orcfile; 
-- 向 表 中 导入 数据 
-- 不 能 直接 向 ORCFILE 表 中 导入 数据 ， 需 要 从 其 他 表 向 ORCFILE 表 插入 数据 。 


insert 
overwrite table 
t_orcfile select * from 


t textfile; 
-- 查询 表 


select 
* from 


t orcfile; 


应 该 依据 数据 需求 选择 适当 的 文件 格式 ， 例 如 : 


。 如 果 数 据 有 参数 化 的 分 隔 符 ， 那 么 可 以 选择 TEXTFILE 格 式 。 

。 如 果 数 据 所 在 文件 比 块 尺寸 小 ， 可 以 选择 SEQUENCEFILE 格 
式 。 

。 如 果 想 执行 数据 分 析 ， 并 高 效 地 存储 数据 ， 可 以 选择 RCFILE 格 
Tus 


。 如 果 希 望 减 小 数据 所 需 的 存储 空间 并 提升 性 能 ， 可 以 选 额 
ORCFILE 格 式 。 


多 维 数 据 仓库 需要 处 理 渐 变 维 (SCD) ， 必 然 要 用 到 行 级 更 新 ， 
而 当前 的 Hive 只 有 ORCFILE 文 件 格 式 可 以 支持 此 功能 。 因 此 在 我 们 的 
销售 订单 示例 中 ， 所 有 数据 仓库 里 的 表 ， 除 日 期 维度 表 外 ， 其 他 表 都 
使 用 ORCFILE 格 式 。 日 期 维度 表 数 据 一 旦 生成 就 不 会 修改 ， 所 以 使 用 
TEXTFILE 格 式 。 原 始 数 据 存储 里 的 表 数 据 是 从 源 数 据 库 直 接 导入 
的 ， 只 有 追加 和 和 覆盖 两 种 导入 方式 ， 不 存在 数据 更 新 的 问题 ， 因 此 使 
用 默认 的 TEXTFILE 格 式 。 


62.2 ”支持 行 级 更 新 


前 面 多 次 提 到 ，HDFS 是 一 个 不 可 更 新 的 文件 系统 ， 其 中 只 能 创 
建 、 删 除 文 件 或 目录 ， 文 件 一 旦 创建 ， 只 能 从 它 的 末尾 追加 数据 ， 已 
存在 数据 不 能 修改 。Hive 以 HDFS 为 基础 ，Hive 表 里 的 数据 最 终 会 物理 
存储 在 HDFS 上 ， 因 此 原生 的 Hive 是 不 支持 insert ... values, update, 
delete 等 事务 处 理 或 行 级 更 新 的 。 这 种 情况 直到 Hive 0.14 才 有 所 改变 。 
该 版 本 具有 一 定 的 事务 处 理 能 力 ， 在 此 基础 上 支持 行 级 数据 更 新 。 


为 了 在 HDFS 上 支持 事务 ，Hive 将 表 或 分 区 的 数据 存储 在 基础 文件 
rH, 而 将 新 增 的 、 修 改 的 、 删 除 的 记录 存储 在 一 种 称 为 delta 的 文件 
中 。 每 个 事务 都 将 产生 一 系列 delta 文 件 。 在 读 取 数据 时 Hive 合 并 基础 
文件 和 delta 文 件 ， 把 更 新 或 删除 操作 应 用 到 基础 文件 中 。 


Hive 已 经 支持 完整 ACID 特性 的 事务 语义 ， 因 此 功能 得 到 了 扩展 ， 
增加 了 以 下 使 用 场景 : 


。 获取 数据 流 。 很 多 用 户 在 Hadoop 集 群 中 使 用 了 诸如 Apache 
Flume、 Apache Storm 或 者 Apache Kafka 进 行 流 数据 处 理 。 这 些 
工具 每 秒 可 能 与 数 百 行 甚至 更 多 的 数据 。 在 支持 事务 以 前 ， 


Hive 只 能 通过 增加 分 区 的 方式 接收 流 数据 。 通 常 每 隔 15 分 钟 ~1 
小 时 新 建 一 个 分 区 ， 人 快速 的 数据 载 入 会 导致 表 中 产生 大 量 的 分 
区 。 这 种 方案 有 两 个 明显 的 问题 。 一 是 当前 述 的 流 数 据 处 理工 
具 向 已 存在 的 分 区 中 装载 数据 时 ， 可 能 会 对 正在 读 取 数据 的 用 
户 产生 脏 读 ， 也 就 是 说 ， 用 户 可 能 读 取 到 他 们 在 开始 查询 时 间 
氮 后 写 入 的 数据 。 二 是 会 在 表 目 录 中 遗留 大 量 的 小 数据 文件 ， 
这 将 给 NameNode 造 成 很 大 压力 。 支 持 事 务 功能 后 ， 应 用 就 可 
以 向 Hive 表 中 持续 插入 数据 行 ， 避 人 免 产生 太 多 的 文件 ， 并 且 疝 
用 户 提供 数据 的 一 致 性 读 。 

处 理 渐 变 维 (Slow Changing Dimensions，SCD) 。 在 一 个 典型 
的 星 型 模式 数据 仓库 中 ， 维 度 表 随时 间 的 变化 很 缓慢 。 例 如 ， 
一 个 零售 商 开 了 一 家 新 商店 ， 需 要 将 新 店 数据 加 到 商店 表 ， 或 
者 一 个 已 有 商店 的 营业 面积 或 其 他 需要 跟踪 的 特性 改变 了 。 这 
些 改变 会 导致 插入 或 修改 个 别 记 录 (依赖 于 选择 的 策略 ) o M 
0.14 版 开始 ，Hive 支 持 了 事务 及 行 级 更 新 ， 从 而 能 够 处 理 各 种 
SCD 类 型 。 

数据 修正 。 有 时候 我 们 需要 修改 已 有 的 数据 。 如 先前 收集 的 数 
据 是 错误 的 ， 或 者 第 一 次 得 到 的 可 能 只 是 部 分 数据 (例如 90% 
的 服务 器 报告 ) ， 而 完整 的 数据 会 在 后 面 提供 ， 或 者 业务 规则 
可 能 要 求 某 些 事务 因为 后 续 事 务 而 重新 启动 〈 例 如 ， 一 个 客户 
购买 了 商品 后 ， 又 购买 了 一 张 会 员 卡 ， 因 此 获得 了 包括 之 前 所 
购买 商品 在 内 的 折扣 价格 。) ， 或 者 在 合作 关系 结束 后 ， 依 据 
合同 需要 删除 客户 的 数据 等 。 这 些 数据 处 理 都 需要 执行 insert、 
update 或 delete 操 作 。 


Hive 0.14 后 开始 支持 事务 ， 但 默认 是 不 支持 的 ， 需 要 一 些 附 加 的 
配置 。 


1。 配 置 Hive 支 持 事务 


CDH 5.7.0 包 含 的 Hive 版 本 是 1.1.0， 该 版 本 可 以 支持 事务 及 行 级 更 
新 ， 但 中 文 支 持 问 题 较 多 。 


(1) 编辑 hive-site.xml 配 置 文件 ， 添 加 支持 事务 的 属性 。 


vi /etc/hive/conf.cloudera.hive/hive-site.xml 


«1-- 添加 如 下 6 个 属性 以 支持 事务 --> 

<property> 
<name>hive.support.concurrency</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.exec.dynamic.partition.mode</name> 
<value>nonstrict</value> 

</property> 

<property> 
<name>hive.txn.manager</name> 


<value>org.apache.hadoop.hive.ql.lockmgr .DbTxnManager</value> 

</property> 

<property> 
<name>hive.compactor.initiator.on</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.compactor.worker.threads</name> 
<value>1</value> 

</property> 

<property> 
<name>hive. enforce. bucketing</name> 
<value>true</value> 

</property> 


各 个 属性 的 说 明 如 下 。 
。 hive.support.concurrency: 默认 值 为 false，0.7.0 版 本 新 增 。 


指示 Hive 是 否 支 持 并 发 。 为 了 支持 insert ... values, update. delete 
事务 ， 该 值 需要 设置 为 tue。 


。 hive.exec.dynamic.partition.mode: 默认 值 为 strict，0.6.0 版 本 新 


it. 


如 果 设 置 为 strict， 向 分 区 表 装 载 数 据 时 ， 为 了 防止 用 户 意 外 覆盖 
所 有 分 区 ， 必 须 指定 至 少 一 个 静态 分 区 。 如 果 设 置 成 nonstrict， 则 所 有 
分 区 都 允许 动态 生成 。 为 了 支持 insert ... values, update, delete 事 务 ， 
该 值 需要 设置 为 nonstrict。 


e hive.txn.manager : FA 认 值 为 


org.apache.hadoop.hive.ql.lockmgr.DummyTxnManagero 


有 org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager ”和 
org.apache.hadoop.hive.ql. lockmgr.DbTxnManager 两 种 取 值 。 前 者 是 
Hive 0.13 之 前 版 本 的 锁 管 理 器 ， 不 提供 事务 支持 。 后 者 是 Hive 0.13.0 
版 本 为 了 支持 事务 新 加 的 属性 值 。 


e hive.compactor.initiator.on: 默认 值 为 false，0.13 版 本 新 增 。 


是 否 在 metastore 实 例 上 运行 initiator 和 cleaner 进 程 。initiator 进 程 负 
责 查 找 哪些 表 或 分 区 的 delta 文 件 应 该 讨 缩 以 获得 更 好 的 性 能 。cleaner 
进程 负责 删除 已 经 不 再 需要 的 delta 文 件 。 为 了 支持 事务 ， 需 要 在 运行 
Thrift metastore 服 务 的 实例 上 设置 为 true。 


e hive.compactor.worker.threads: 默认 值 为 0，0.13 版 本 新 增 。 


有 多 少 工作 线程 在 Thrift metastore 实 例 上 运行 。 为 了 支持 事务 ， 需 
要 在 运行 Thrift metastore 服 务 的 一 个 或 多 个 实例 上 设置 为 正 整数 。 工 作 
线程 启动 MapReduce 作 业 庄 缩 的 准备 工作 ， 但 它们 并 不 执行 真正 的 讨 
缩 。 增 加 该 值 会 减少 表 或 分 区 在 压缩 时 需要 的 时 间 ， 但 同时 会 增加 


Hadoop 集 群 的 后 台 负 载 ， 因 为 会 有 更 多 的 MapReduce 作 业 在 后 台 运 
行 。 


。 hive.enforce.bucketing : Hive 0.x 和 Hive 1.x 的 默认 值 为 false， 
Hive 2.x 已 将 该 属性 移 除 ， 效 果 等 同 于 该 属性 的 值 恒 为 true。 


是 否 强 制 使 用 数据 分 桶 。 如 果 设 置 为 tue， 在 向 表 中 插入 数据 时 
强制 分 桶 。 必 须 设置 这 个 属性 ，Hive 才 会 按照 设置 的 桶 的 个 数 去 生成 
数据 。 桶 是 更 为 细 粒 度 的 数据 范围 划分 ， 它 能 使 一 些 特定 的 查询 效率 
更 高 ， 比 如 对 于 具有 相同 的 桶 划分 并 且 连 接 的 列 刚好 就 是 在 桶 里 的 连 
接 查询 。 分 桶 还 有 一 个 用 途 是 查询 示例 数据 (TABLESAMPLE) ， 对 
于 一 个 庞大 的 数据 集 我 们 经 常 需要 拿 出 来 一 小 部 分 作为 样 例 ， 然 后 在 
样 例 上 验证 并 优化 查询 。 为 了 支持 insert ... values, update, delete 事 
务 ， 该 值 需要 设置 为 true。 


(2) 在 MySQL 中 添加 Hive 元 数据 。 


mysql -u root -p hive 
mysql» insert into 


next lock id values 


(1); 
mysql» insert into 


next compaction queue id values 


(1); 
mysql» insert into 


next txn id values 


(1); 
mysql» commit 


注意 ， 如 果 这 三 个 表 没 有 数据 ， 执 行 行 级 更 新 时 会 报 以 下 错误 : 
org.apache.hadoop.hive.gl.lockmgr.DbTxnManager FAILED: Error in 


acquiring locks: Error communicating with the metastorec 


配置 Hive 支 持 事 务 后 ， 需 要 重启 Hive 服 务 。 可 以 登录 Cloudera 
Manager 管 理 控制 台 执 行 重 启 Hive 服 务 的 操作 。 单 击 *Hive”- “操作” 
二 “重启 ” 即 可 。 


2。 测 试 


使 用 hive 命 令 行 工具 登录 Hive。 
执行 下 面 的 HiveQL 语 句 ， 建 立 测 试 表 t1。 


use 

test; 
-- 建立 测试 表 
create table 


ti(id int 


, name string) 
clustered by 


(id) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
说 明 : 


。 必须 存储 为 ORC 格 式 。 
。 EREMIE A into buckets 子 句 和 stored as orc tblproperties 
("transactional'="true'") 子 句 ， 并 且 不 能 带 有 sorted by 子 句 。 


。 关键 字 clustered 声 明 划 分 桶 的 列 和 桶 的 个 数 ， 这 里 以 id 来 划分 
桶 ， 划 分 8 个 桶 。Hive 会 计算 id 列 的 hash 值 再 以 桶 的 个 数 取 模 来 
计算 某 条 记录 属于 哪个 桶 。 


测试 insert ... values 语 句 : 


insert into ti values (1,'aaa'); 
insert into t1 values (2,'bbb'); 


select * from t1; 


查询 结果 如 下 所 示 : 


hive» select * from t1; 
OK 

1 aaa 

2 bbb 


Time taken: 0.067 seconds, 


测试 update 语 句 : 


Update 
t1 set 
name='ccc' where 


id-1; 
select * from 


ti; 


查询 结果 如 下 所 示 : 


hive» select * from t1; 
OK 

也 (01010; 

2 bbb 


Time taken: 0.103 seconds, 


Fetched: 2 row(s) 


Fetched: 2 row(s) 


测试 delete 语 句 : 


delete from ti where id=2; 
select * from t1; 


查询 结果 如 下 所 示 : 


hive> select * from t1; 

OK 

1 CCC 

Time taken: 0.089 seconds, Fetched: 1 row(s) 


测试 从 已 有 非 ORC 表 装载 数据 。 


-- 创建 本 地 文本 文件 /root/a.txt 文 件 ， 内 容 如 下 : 
1,a,us,ca 
2,b,us,cb 
3,c,ca,bb 
4,d,ca,bc 


-- 建立 非 分 区 表 并 装载 数据 


USe 


test; 
drop table if exists 


t1; 
create table 


t1 (id int 
, name string, cty string, st string) row format 


delimited fields 
terminated by 


load data local 


inpath '/root/a.txt' into table 


t1; 


-- 建立 外 部 分 区 事务 表 并 装载 数据 


create external table 

t2 (id int 

, name string) partitioned by 
(country string, state 


string) 
clustered by 


(id) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


t2 partition 


(country, state) select * from 


pq 
select * from 
por 
查询 结果 如 下 所 示 : 
hive» select * from t2; 
3 va a bb 
4 d ca bc 
* E us ca 
5 b us cb 
Time taken: 0.167 seconds, Fetched: 4 row(s) 
修改 数据 : 


insert into table t2 partition (country, state) values 
(5, 'e', "dd", 'dd'); 


update t2 set name='f' where id-1; 
delete from t2 where name='b'; 
select * from t2; 


zz = 

查询 结果 如 下 所 示 : 

hive> select * from t2; 

OK 

3 (e) ca bb 

4 d ca bc 

5 e dd dd 

1 f us ca 

Time taken: 0.149 seconds, Fetched: 4 row(s) 
* 
说 明 : 


。 对 分 区 表 执 行 insert 时 ， 表 名 后 要 跟 partition 子 句 。 

e 不 能 修改 bucket 列 的 值 ， 否 则 会 报 以 下 错误 : FAILED: 
SemanticException [Error 10302]: Updating values of bucketing 
columns is not supported. Column id. 

。 对 已 有 非 ORC 表 的 转换 ， 只 能 通过 新 建 ORC 表 再 向 新 表 迁 移 数 
据 的 方式 ， 直 接 修改 原 表 的 文件 格式 属性 是 不 行 的 (有 兴趣 的 
读者 可 以 自己 试 一 试 ， 我 是 踩 过 坑 了 ) o 


6.2.3 ”Hive 事 务 支持 的 限制 


现在 的 Hive 虽 然 已 经 支持 了 事务 ， 但 是 并 不 完善 ， 存 在 很 多 限 
制 。 还 不 能 像 使 用 关系 数据 库 那 样 来 操作 Hive， 这 是 由 MapReduce 计 
算 框架 和 CAP 理 论 所 决定 的 (3.5 节 有 对 CAP 理 论 的 介绍 ) 。Hive 事 务 
处 理 的 局 限 性 体现 在 以 下 几 个 方面 。 


© 暂 不 支持 BEGIN、COMMIT 和 ROLLBACK 语 句 ， 所 有 HiveQL 
语句 都 是 自动 提交 的 。Hive 计 划 在 未 来 版 本 支持 这 些 语句 。 

。 现 有 版 本 只 支持 ORC 文 件 格式 ， 未 来 可 能 会 支持 所 有 存储 格 
式 。Hive 计 划 给 表 中 的 每 行 记录 增加 显 式 或 隐 式 的 row id, AF 


6.3 


行 级 的 update 或 delete 操 作 。 这 项 功能 很 值得 期 待 ， 但 目前 来 看 
进展 不 大 。 

默认 配置 下， 事务 功能 是 关闭 的 ， 必 须 进 行 一 些 配 置 才 能 使 用 
事务 ， 易 用 性 不 理想 。 

使 用 事务 的 表 必 须 分 彬 ， 而 相同 系统 上 不 使 用 事务 和 ACID 特性 
的 表 则 没有 此 限制 。 

外 部 表 的 事务 特性 有 可 能 失效 。 

不 允许 从 一 个 非 ACID 的 会 话 读 写 事务 表 。 换 句 话 说， 会 话 中 的 
锁 E E 器 SF & D A R 置 成 
org.apache.hadoop.hive.gl.ockmgr.DbTxnManager, ， 才 能 与 事务 
表 一 起 工作 。 

当前 版 本 只 支持 快照 级 别 的 事务 隔离 。 当 一 个 查询 开始 执行 
后 ，Hive 提 供给 它 一 个 查询 开始 时 间 点 的 数据 一 致 性 快照 。 传 
统 事务 的 脏 读 、 读 提交 、 可 重复 读 或 串 行 化 隔离 级 别 都 不 支 
持 。 计 划 引 入 的 BEGIN 语 句 ， 目 的 就 是 在 事务 执行 期 间 支 持 快 
照 隔 离 级 别 ， 而 不 仅仅 是 面向 单一 语句 。Hive 官 方 称 会 依赖 用 
户 需 求 增加 其 他 隔离 级 别 。 

ZooKeeper 和 内 存 锁 管 理 器 与 事务 不 兼容 。 


Hive 表 分 类 


1. 管理 表 


我 们 前 面 创建 的 大 部 分 表 是 管理 表 ， 有 时 也 被 称 为 内 部 表 。 因 为 
Hive 会 控制 这 些 表 中 数据 的 生命 周期 。 默 认 情 况 下 ，Hive 会 将 这 些 表 
的 数据 存储 在 由 hive-site.xml 文 件 中 属性 hive.metastore.warehouse.dir 所 
定义 目录 的 子 目 录 下 。 当 我 们 删除 一 个 管理 表 时 ，Hive 也 会 删除 这 个 
表 中 的 数据 。 


管理 表 的 主要 问题 是 只 能 用 Hive 访 问 ， 不 方便 和 其 他 系统 共享 数 
据 。 例 如 ， 假 如 有 一 份 由 Pig 或 其 他 工具 创建 并 且 主要 由 这 一 工具 使 用 
的 数据 ， 同 时 希望 使 用 Hive 在 这 份 数据 上 执行 一 些 查 询 ， 可 是 并 没有 
给 予 Hive 对 数据 的 所 有 权 ， 这 时 就 不 能 使 用 管理 表 了 。 我 们 可 以 创建 
一 个 外 部 表 指向 这 份 数据 ， 而 并 不 需要 对 其 具有 所 有 权 。 


2。 外 部 表 


前 面 对 已 有 非 ORC 表 的 转换 示例 中 已 经 创建 过 一 个 外 部 表 。 我 们 
再 来 看 一 个 Hive 文 档 中 外 部 表 的 例子 。 


create external table page view(viewtime int, userid bigint, 
page url string, referrer url string, 
ip string comment 'ip address of the user', 
country string comment 'country of origination') 
comment 'this is the staging page view table' 
row format delimited fields terminated by '\054' 
stored as textfile 
location '<hdfs_location>'; 


上 面 的 语句 建立 一 个 名 为 page_view 的 外 部 表 。EXTERNAL 关 键 
字 告 诉 Hive 这 是 一 个 外 部 表 ， 后 面 的 LOCATION 子 句 指 示 数 据 位 于 
HDFS 的 哪个 路 径 下 ， 而 不 使 用 hive.metastore.warehouse.dir 定 义 的 默认 
位 置 。 外 部 表 方 便 对 已 有 数据 的 集成 。 


因为 表 是 外 部 的 ， 所 以 Hive 并 不 认为 其 完全 拥有 这 个 表 的 数据 。 
在 对 外 部 表 执 行 删除 操作 时 ， 只 是 删除 掉 描述 表 的 元 数据 信息 ， 并 不 
会 删除 表 数 据 。 


我 们 需要 清楚 的 重要 一 点 是 管理 表 和 外 部 表 之 间 的 差异 要 比 看 起 
来 的 小 得 多 。 即 使 对 于 管理 表 ， 用 户 也 可 以 指定 数据 是 存储 在 哪个 路 
径 下 的 ， 因 此 用 户 也 可 以 使 用 其 他 工具 (如 hdfs 的 dfs 命 令 等 ) 来 修改 
甚至 删除 管理 表 所 在 路 径 下 的 数据 。 从 严格 意义 上 说 ，Hive 是 管理 着 


这 些 目录 和 文件 ， 但 是 并 不 具有 对 它们 的 完全 控制 权 。Hive 实 际 上 对 
于 所 存储 的 文件 的 完整 性 以 及 数据 内 容 是 否 和 表 结 构 一 致 并 没有 支配 
能 力 ， 甚 至 管理 表 都 没有 给 用 户 提 供 这 些 管理 能 力 。 
用 户 可 以 在 DESCRIBE FORMATTED tablename 语 句 的 输出 中 看 到 
是 管理 表 还 是 外 部 表 。 对 于 管理 表 ， 用 户 可 以 看 到 如 下 信息 : 


Table Type: MANAGED TABLE 


对 于 外 部 表 ， 用 户 可 以 看 到 如 下 信息 : 


Table Type:  EXTERNAL TABLE 


用 户 还 可 以 对 一 张 存在 的 表 只 复制 其 表 结 构 而 不 复制 数据 : 


create external table if not exists 


mydb.empty key value store 
like 


mydb.key value store 
location '/path/to/data'; 


注意 ， 如 果 上 面 语句 中 省 略 掉 EXTERNAL 关 键 字 而 且 源 表 是 外 部 
表 的 话 ， 那 么 生成 的 新 表 也 将 是 外 部 表 。 如 果 语 句 中 省 略 掉 
EXTERNAL 关 键 字 而 且 源 表 是 管理 表 的 话 ， 那 么 生成 的 新 表 也 将 是 管 
理 表 。 但 是 ， 如 果 语 句 中 包含 有 EXTERNAL 关 键 字 而 且 源 表 是 管理 表 
的 话 ， 那 么 生成 的 新 表 将 是 外 部 表 。 即 使 在 这 种 场景 下 ，LOCATION 
子 句 同 样 是 可 选 的 。 


3. 分 区 表 


和 其 他 数据 库 类 似 ，Hive 中 也 有 分 区 表 的 概念 。 分 区 表 的 优势 体 
现在 可 维护 性 和 性 能 两 方面 ， 而 且 分 区 表 还 可 以 将 数据 以 一 种 符合 业 
务 逻 辑 的 方式 进行 组 织 ， 因 此 是 数据 仓库 中 经 常 使 用 的 一 种 技术 。 管 
理 表 和 外 部 表 都 可 以 创建 相应 的 分 区 表 ， 分 别称 之 为 管理 分 区 表 和 外 
部 分 区 表 。 


(1) 管理 分 区 表 


先 看 一 个 管理 分 区 表 的 例子 : 


create table 
page view(viewtime int 
, userid bigint 
page url string, referrer url string, 
ip string comment 


'ip address of the user') 
comment 


'this is the page view table' 
partitioned by 


(dt string, country string) 
row format 


delimited fields terminated by 


'N001' 
stored as 


sequencefile; 


CREATE TABLE 语 句 的 PARTITIONED BY 子 句 用 于 创建 分 区 表 。 
上 面 的 语句 创建 一 个 名 为 page_view 的 分 区 表 。 这 是 一 个 常见 的 页 面 浏 
览 记 录 表 ， 包 含 浏览 时 间 、 浏 览 用 户 ID、 浏 览 页 面 的 URL、 上 一 个 访 


问 的 URL 和 用 户 的 IP 地 址 五 个 字段 。 该 表 以 日 期 和 国家 作为 分 区 字 
段 ， 存 储 为 SEQUENCEFILE 文 件 格 式 。 文 件 中 的 数据 分 别 使 用 默认 的 
Ctrl-A 和 换行 竺 作为 列 和 行 的 分 隔 符 。 


DESCRIBE FORMATTED 命 令 会 显示 出 分 区 键 : 


hive» DESCRIBE FORMATTED page view; 


* col name data type comment 

viewtime int 

userid bigint 

page url string 

referrer url string 

ip string IP Address of the User 


# Partition Information 
# col name data type comment 


dt string 


country string 


输出 信息 中 把 表 字 段 和 分 区 字段 分 开 显示 。 这 两 个 分 区 键 当前 的 
注释 都 是 空 ， 我 们 也 可 以 像 给 普通 字段 增加 注释 一 样 给 分 区 字段 增加 
注释 。 

分 区 表 改 变 了 Hive 对 数据 存储 的 组 织 方 式 。 如 果 是 一 个 非 分 区 
表 ， 那 么 只 会 有 一 个 page_view 目 录 与 之 对 应 ， 而 对 于 分 区 表 ， 当 向 表 
中 装载 数据 后 ，Hive 将 会 创建 好 可 以 反映 分 区 结构 的 子 目 录 。 在 之 后 
的 6.4 节 将 会 看 到 分 区 结构 目录 的 例子 。 分 区 字段 一 旦 创建 好 ， 表 现 得 
就 和 普通 字段 一 样 。 事 实 上 ， 除 非 需要 优化 查询 性 能 ， 否 则 用 户 不 需 
要 关心 字段 是 否 是 分 区 字段 。 需 要 注意 的 是 ， 分 区 字段 的 值 包含 在 目 
录 名 称 中 ， 而 不 在 它们 目录 下 的 文件 中 。 也 有 分 区 字段 的 值 不 包含 在 
目录 名 称 中 的 情况 ，6.4 节 将 看 到 一 个 这 样 的 例子 。 


对 数据 进行 分 区 ， 最 重要 的 原因 就 是 为 了 更 快 地 查询 。 如 果 用 户 
的 查询 包含 “where dt = '...' and country = '...” 这 样 的 条 件 ， 查 询 优 化 器 
只 需要 扫描 一 个 分 区 目录 即 可 。 即 使 有 很 多 日 期 和 国家 的 目录 ， 除 了 
一 个 目录 其 他 的 都 可 以 忽略 不 计 ， 这 就 是 所 谓 的 “分 区 消除 "。 对 于 非 


常 大 的 数据 集 ， 利 用 分 区 消除 特性 可 以 显著 地 提高 查询 性 能 。 当 我 们 
在 WHERE 子 句 中 增加 谓词 来 按照 分 区 值 进行 过 滤 时 ， 这 些 谓词 被 称 
为 分 区 过 滤器 。 


当然 ， 如 果 用 户 需 要 做 一 个 查询 ， 查 询 中 不 带 分 区 过 滤器 ， 甚 至 
查询 的 是 表 中 的 全 部 数据 ， 那 么 Hive 不 得 不 读 取 表 目录 下 的 每 个 子 目 
录 ， 这 种 宽 范围 的 磁盘 扫描 是 应 该 尽量 避免 的 。 如 果 表 中 的 数据 以 及 
分 区 个 数 都 非常 大 的 话 ， 执 行 这 样 一 个 包含 所 有 分 区 的 查询 可 能 会 触 
发 一 个 巨大 的 MapReduce 任 务 。 一 个 强烈 建议 的 安全 措施 是 将 Hive 设 
置 为 严格 mapred 模 式 ， 这 样 如 果 对 分 区 表 进 行 查询 而 WHERE 子 句 没 
有 加 分 区 过 渡 的 话 ， 将 会 禁止 提交 这 个 查询 。 


hive> set hive.mapred.mode-strict; 

hive» select * from page view; 

FAILED: SemanticException [Error 10041]: No partition 
predicate found for Alias "page view" 

Table "page view" 

hive» set hive.mapred.mode-nonstrict; 


创建 分 区 表 时 ， 普 通 字 段 与 分 区 字段 不 能 重 名 ， 否 则 将 报 如 下 错 


误 。 


hive> create table table name ( 

> id int, 

> date String， 

> name string 

> ) 

> partitioned by (date string); 
FAILED: SemanticException [Error 10035]: Column repeated in 
partitioning columns 


(2) 外 部 分 区 表 


外 部 表 同 样 可 以 使 用 分 区 ， 事 实 上 ， 这 是 管理 大 型 生产 数据 集 最 
常见 的 情况 。 这 种 结合 给 用 户 提 供 了 一 个 可 以 和 其 他 工具 共享 数据 的 


方式 ， 同 时 也 可 以 优化 查询 性 能 。 由 于 用 户 能 够 自己 定义 目录 结构 ， 
因此 用 户 对 于 目录 结构 的 使 用 具有 更 多 的 灵活 性 。 日 志文 件 分 析 就 非 
单 适 合 这 种 场景 。 

例如 我 们 有 一 个 用 户 下 载 手 机 APP 的 日 志文 件 ， 其 中 记录 了 手机 
操作 系统 、 下 载 时 间 、 下 载 渠 道 、 下 载 的 APP、 下 载 用 户 和 其 他 杂项 
言 息 ， 杂 项 信息 使 用 一 个 JSON 字 符 串 表示 。 应 用 程序 每 天 会 生成 一 个 
新 的 日 志文 件 。 我 们 可 以 按照 如 下 方式 来 定义 对 应 的 Hive 表 : 


create external table logs( 


platform string, 
createtime string, 
channel string, 
product string, 
userid string, 
content map<string, string>) 


partitioned by (dt int) 
row format delimited fields terminated by '\t' 
location 'hdfs://cdh2/logs'; 


我 们 建立 了 一 个 外 部 分 区 表 ，dt 是 分 区 字段 ， 它 是 日 期 的 整数 表 
示 。 将 日 志 数 据 按 天 进行 分 区 ， 划 分 的 数据 量 大 小 合适 ， 而 且 按 天 这 
个 粒度 进行 查询 也 能 满足 需求 。 每 天 定时 执行 以 下 的 shell 脚 本 ， 把 前 
一 天 生成 的 日 志文 件 装载 进 Hive。 脚 本 执行 后 ， 就 可 以 使 用 Hive 表 分 
析 前 一 天 的 日 志 数据 了 。 脚 本 中 使 用 hive 命 令 行 工 具 的 -e 参 数 执行 
HiveQL 语 句 。 关 于 Hive 的 命令 行 工 具 ， 将 会 在 第 8 草 详细 介绍 。 


#!/bin/bash 

# 设置 环境 变量 

source /home/work/.bash profile 

# 取得 前 一 天 的 日 期 ， 格 式 为 yyyymmdd， 作 为 分 区 的 目录 名 
dt=$(date -d last-day +%Y%m%d ) 

# 建立 HDFS 目 录 

hadoop fs -mkdir -p /logs/$dt 

# 将 前 一 天 的 日 志文 件 上 传 到 HDFS 的 相应 目录 中 

hadoop fs -put /data/statsvr/tmp/logs $dt /logs/$dt 
# 给 Hive 表 增加 一 个 新 的 分 区 ， 指 向 刚 建 的 目录 

hive --database logs -e "alter table logs add 


partition(dt-$dt) location 
'hdfs://cdh2/10gs/$dt'" 

Hive 并 不 关心 一 个 分 区 对 应 的 分 区 目录 是 否 存在 或 者 分 区 目录 下 
是 否 有 文件 。 如 果 分 区 目录 不 存在 或 分 区 目录 下 没有 文件 ， 则 对 于 这 
个 分 区 的 查询 将 没有 返回 结果 。 当 用 户 想 在 另外 一 个 进程 开始 往 分 区 
中 写 数据 之 前 创建 好 分 区 时 ， 这 样 处 理 是 很 方便 的 。 数 据 一 旦 存在 ， 
对 它 的 查询 就 会 有 返回 结果 。 


这 个 功能 所 具有 的 另 一 个 好 处 是 ， 可 以 将 新 数据 写 入 到 一 个 专用 
的 目录 中 ， 并 与 位 于 其 他 目录 中 的 数据 存在 明显 的 区 别 。 不 管用 户 是 
将 旧 数 据 转 移 到 一 个 归档 位 置 还 是 直接 删除 掉 ， 新 数据 被 和 修改 和 误 删 
除 的 风险 被 降低 了 ， 因 为 新 数据 位 于 不 同 的 目录 下 。 


和 非 分 区 外 部 表 一 样 ，Hive 并 不 控制 数据 ， 即 使 表 被 删除 ， 数 据 
也 不 会 被 删除 。 


6.4 向 Hive 表 装载 数据 


在 6.2 节 我 们 尝试 了 对 支持 事务 的 Hive 表 进行 行 级 数据 插入 和 更 
新 ， 这 使 得 用 Hive 处 理 多 维 数据 仓库 的 渐变 维 成 为 可 能 。 本 节 讨 论 
Hive 里 更 加 普 壳 的 数据 委 载 方式 。 我 们 将 用 示例 分 别 说 明 非 分 区 表 和 
分 区 表 的 数据 装载 ， 还 将 说 明 如 何 进行 动态 分 区 插入 。 为 了 体现 通用 
性 ， 本 节 使 用 的 示例 尽量 简单 ， 而 且 不 市 有 任何 业务 含义 ， 只 是 用 于 
演示 Hive 的 功能 。 


1。 向 非 分 区 表 中 装载 数据 
(1) 使 用 load 


我 们 先 准 备 一 个 本 地 文本 文件 a.txt， 其 中 只 有 一 行 记 录 'aaa'。 


mkdir test 
cd test 
echo 'aaa' » a.txt 


然后 将 这 行 记录 装载 到 一 个 表 中 ， 并 查看 HDFS 上 生成 的 数据 文 
件 。 


hive> use 


test; 
hive» drop table if exists 


tie 
hive> create table 


ti(name string); 
hive» 


load data local 
inpath '/root/test' into table 


t1; 
hive» select * from 


eT; 
aaa 
hive> 


dfs -ls /user 


/hive/warehouse/test.db/t1; 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 13:52 /user 


/hive/warehouse/test.db/t1/a.txt 
hive» dfs -cat /user 


/hive/warehouse/test.db/ti/a.txt; 
aaa 


可 以 看 到 ，hive 命 令 行 中 除了 可 以 执行 HiveQL 语 句 ， 还 可 以 执行 
Hadoop 的 dfs 命 令 。Load 语 句 实 际 执行 的 是 一 个 复制 文件 的 操作 。 通 常 
我 们 在 load 语 句 中 指定 的 路 径 是 一 个 目录 ， 而 不 是 单个 独立 的 文件 。 
Hive 会 将 该 目录 下 的 所 有 文件 都 复制 到 目标 位 置 。 这 使 得 用 户 将 更 方 
便 地 组 织 数据 到 多 个 文件 中 ， 同 时 可 以 在 不 修改 Hive 脚 本 的 前 提 下 修 
改 文件 命名 规则 。 文 件 会 被 复制 到 目标 路 径 下 而 且 文 件 名 保持 不 变 。 

上 面 的 HiveQL 语 句 向 t1 表 中 装载 了 数据 'aaa'， 并 在 默认 的 数据 仓 
库 目 录 下 生成 了 数据 文件 /user/hive/warehouse/test.db/t1/a.txt， 实 际 上 数 
据 文件 是 纯 文 本 格式 ， 内 容 就 是 'aaa。 


在 本 地 文件 a.txt 中 添加 一 行 'bbb'。 


echo 'bbb' >> a.txt 


然后 再 执行 下 面 的 HiveQL 语 句 并 查看 结果 : 


hive» load data local 
inpath '/root/test' into table 


t1; 
hive» select * from 


Ld 
aaa 
aaa 
bbb 
hive> dfs -ls /user 


/hive/warehouse/test.db/t1; 
Found 


2 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 13:52 /user 


/hive/warehouse/test.db/ti/a.txt 
-rwxrwxrwt 3 root hive 8 2016-10-20 14:18 
/user 


/hive/warehouse/test.db/ti/a copy 1.txt 
hive» dfs -cat /user 


/hive/warehouse/test.db/ti/a.txt; 
aaa 
hive> dfs -cat /user 


/hive/warehouse/test.db/ti/a_copy_1.txt; 
aaa 
bbb 


可 以 看 到 ， 现 在 表 中 有 三 条 数据 ， 并 且 新 生成 了 数据 文件 
a copy _1l.txt。 原 来 的 atxt 文 件 中 的 内 容 还 是 'aaa， 新 生成 的 
a_copy_1.txt 文 件 中 的 内 容 是 第 二 次 装载 的 两 行 数据 。 也 就 是 说 ， 如 果 
目标 中 装载 的 文件 已 经 存在 ， 那 么 再 次 装载 会 生成 一 个 原文 件 的 复 
制 ， 表 中 数据 对 应 的 是 表 目 录 下 的 所 有 文件 的 内 容 。 


(2) load overwrite 


这 次 在 load 语 句 中 增加 了 overwrite 关 键 字 ， 情 况 会 有 所 不 同 。 执 
行 下 面 的 语句 并 查看 结果 : 


hive» drop table if exists t2; 

hive» create table t2 (name string); 

hive» load data local inpath '/root/test' overwrite into 
table t2; 

hive» select * from t2; 

aaa 

bbb 

hive» dfs -ls /user/hive/warehouse/test.db/t2; 

Found 1 items 

-rwxrwxrwt 3 root hive 8 2016-10-20 14:43 
/user/hive/warehouse/test.db/t2/a.txt 

hive» dfs -cat /user/hive/warehouse/test.db/t2/a.txt; 
aaa 

bbb 


可 以 看 到 ， 现 在 t2 表 中 有 了 两 条 数据 ， 在 表 目 录 下 生成 了 数据 文件 
a.txt。 现 在 编辑 本 地 文件 a.txt， 使 其 只 有 一 行 'ccc'。 


echo 'ccc' » a.txt 


然后 再 执行 下 面 的 语句 : 


hive» load data local 
inpath '/root/test' overwrite into table 


po 
hive» select * from 


t2; 
ECC 
hive> dfs -ls /user 


/hive/warehouse/test.db/t2; 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 14:50 /user 


/hive/warehouse/test.db/t2/a.txt 
hive» dfs -cat /user 


/hive/warehouse/test.db/t2/a.txt; 
CCC 


可 以 看 到 ， 现 在 表 中 只 有 一 条 数据 'ccc ， 数 据 文 件 名 没 变 ， 但 其 
内 容重 新 生成 。 


2. 向 分 区 表 中 装载 数据 


(1) load 


准备 本 地 文本 文件 atxt， 其 中 只 有 一 行 'aaa'， 然 后 执行 下 面 的 语句 
并 查看 结果 : 


hive» create table 
t1 (name string) partitioned by 
(country string, state 


string); 
hive> dfs -ls /Vuser 


/hive/warehouse/test.db/t1; 
hive» load data local 


inpath '/root/test' into table 
t1 partition 
(country - 'us', state 


= 'ca'); 
hive» select * from 


t1; 
aaa us ca 
hive> dfs -ls /Vuser 
/hive/warehouse/test.db/ti/country=us/state 


-Ca; 
Found 


1 items 
-rwxrwxrwt 3 root hive 4 2016-10-20 15:10 
/user 
/hive/warehouse/test.db/ti/country=us/state 
=ca/a.txt 
可 以 看 到 ， 建 立 t1 表 后 ， 闭 载 数据 前 ， 表 目录 下 没有 任何 文件 。 
l0ad 语 句 创 建 了 分 区 目录 country=us/state=ca， 并 将 本 地 文件 复制 到 分 


区 目录 下 。 从 查询 的 角度 看 ， 同 t1 表 中 装载 了 数据 'aaa'。 查 询 结 果 显 示 
了 三 列 ， 除 了 原始 的 文本 文件 中 的 数据 ， 还 包括 两 个 分 区 列 的 值 。 分 
区 列 总 是 在 表 的 最 后 显示 。 


load overwrite- F 2k QUE SIERK RKM, ARB 
(2) alter table tablename add partition 
执行 下 面 的 语句 : 


hive» alter table 
t1 add partition 
(country = 'us', state 


= 'cb') location '/a'; 
hive> dfs -ls /Vuser 


/hive/warehouse/test.db/ti/country=us; 
Found 


1 items 
drwxrwxrwt - root hive 0 2016-10-20 15:40 
/user 
/hive/warehouse/test.db/ti/country=us/state 


三 Ca 
hive» select * from 


t1; 

aaa us ca 

hive> dfs -cp /user 
/hive/warehouse/test.db/ti/country=us/state 


=ca/a.txt /a; 
hive> select * from 


ti; 
aaa us ca 


aaa us cb 
hive> dfs -ls /user 


/hive/warehouse/test.db/ti/country=us; 
Found 


1 items 
drwxrwxrwt - root hive 0 2016-10-20 15:40 
/user 


/hive/warehouse/test.db/ti/country=us/state 


=ca 
hive> dfs -ls /a; 
Found 


1 items 

-rw-r--r-- 3 root supergroup 4 2016-10-20 15:41 
/a/a.txt 

hive» dfs -rm /user 


/hive/warehouse/test.db/ti/country=us/state 


-ca/a.txt; 
hive» select * from 


t1; 
aaa us cb 

说 明 : 表 中 原 有 一 条 数据 'aaa'。 添 加 一 个 新 分 区 ， 并 指定 位 置 
为 /al。 把 已 经 存在 的 数据 文件 a.txt 复 制 到 目录 va 里。 此 时 查询 表 已 经 
有 属于 不 同 分 区 的 两 条 数据 。 删 除 country = 'us' Estate = 'ca' 分 区 的 数据 
文件 。 此 时 查询 表 只 有 属于 country = "us' 且 state = 'cb' 分 区 的 一 条 数 
据 。 整 个 过 程 中 HDFS 上 都 没有 人 存在 过 country = 'us'/state = 'cb' 的 子 目 
录 。 


通过 以 上 的 演示 示例 ， 我 们 对 Hive 表 的 数据 装载 特性 总 结 如 下 : 
e load5 load overwrite 的 区 别 是 : load 每 次 执行 生成 新 的 数据 文 


件 ， 文 件 中 是 本 次 装载 的 数据 。load overwrite 如 表 (或 分 区 ) 
的 数据 文件 不 存在 则 生成 ， 存 在 则 重新 生成 数据 文件 内 容 。 


© 分 区 表 比 非 分 区 表 多 了 一 种 alter table ... add partition 的 数据 装载 
Haike 

。 对 于 分 区 表 (无 论 内 部 还 是 外 部 ) , load5load overwrite 会 自动 
建立 名 为 分 区 键 值 的 目录 ， 而 alter table .… add partition, REA 
location 指 定数 据 文 件 所 在 的 目录 即 可 。 

。 对 于 外 部 表 ， 除 了 在 删除 表 时 只 删除 元 数据 而 保留 表 数 据 目 录 
外 ， 其 数据 装载 行为 与 内 部 表 相 同 (外 部 表 的 实验 没有 列 
出 ) 。 


3. 动态 分 区 插入 


前 面 的 示例 都 是 静态 分 区 ， 也 就 是 说 在 装载 数据 前 ， 分 区 键 的 值 
是 已 知 的 。 在 这 种 情况 下 ， 如 果 需 要 建立 的 分 区 非常 多 ， 那 么 就 不 得 
不 写 很 多 的 HiveQL 语 句 。 不 过 Hive 提 供 了 一 个 动态 分 区 功能 ， 可 以 基 
于 查询 的 参数 推断 出 需要 创建 的 分 区 名 称 。 下 面 用 一 个 示例 验证 分 区 
表 的 动态 分 区 插入 功能 ， 并 验证 是 否 可 以 使 用 load 进 行动 态 分 区 插 
入 。 


(1) 在 本 地 文件 /root/test/a.txt 中 写 入 以 下 4 行 数据 : 


aaa, US, CA 
aaa, US, CB 
bbb, CA, BB 
bbb, CA, BC 


(2) 建立 非 分 区 表 并 装载 数据 ，HiveQL 语 句 及 其 执行 结果 显示 
如 下 : 


hive» drop table if exists t1; 

hive» create table ti (name string, cty string, st string) 
row format delimited fields 

terminated by ','; 

hive» load data local inpath '/root/test' into table t1; 


hive» select * from t1; 


aaa US CA 
aaa US CB 
bbb CA BB 
bbb CA BC 


hive> dfs -ls /user/hive/warehouse/test.db/t1; 

Found 1 items 

-rwxrwxrwt 3 root hive 40 2016-10-20 16:16 
/user/hive/warehouse/test.db/ti/a.txt 


(3) 建立 外 部 分 区 表 并 动态 装载 数据 。 


hive> create external table 
t2 (name string) partitioned by 
(country string, state 


string); 
hive» set 


hive.exec.dynamic.partition-true 


[4 
hive» set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
hive» set 


hive.exec.max.dynamic 


.partitions.pernode-1000; 
hive» insert into table 


t2 partition 
(country, state 

) select 

name, cty, st from 


t1; 
hive» insert into table 


t2 partition 
(country, state 

) select 

name, cty, st from 


tB 
hive» select * from 


EB 
bbb CA BB 
bbb CA BB 
bbb CA BC 
bbb CA BC 
aaa US CA 
aaa US CA 
aaa US CB 
aaa US CB 
hive> dfs -ls /user 


/hive/warehouse/test.db/t2/; 
Found 


2 items 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test .db/t2/country=CA 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test.db/t2/country=US 


执行 了 两 次 同样 的 insert 语 句 ， 可 以 看 到 ， 向 外 部 分 区 表 中 装载 了 
8 条 数据 ， 动态 建立 了 两 个 分 区 目 录 。 


动态 分 区 功能 默认 情况 下 是 不 开启 的 。 分 区 以 “严格 ”模式 执行 ， 
在 这 种 模式 下 要 求 至 少 有 一 个 分 区 列 是 静态 的 。 这 有 助 于 阻止 因 设计 
错误 导致 查询 产生 大 量 的 分 区 。 还 有 一 些 属性 用 于 限制 资源 使 用 。 表 
6-3 所 示 撞 述 了 这 些 属性 。 


表 6-3 ”限制 资源 使 用 的 属性 


属性 名 称 默认 什 
hive.exec.dynamic.partition false 设置 成 true， 表 示 开 局 动态 分 区 功能 
hive.exec.dynamic.partition.mode | strict 设置 成 nonstrict， 表 示人 允许 所 有 分 区 都 是 动态 的 
hive.exec.max.dynamic.partitions. | 100 每 个 mapper BK reducer 可 以 创建 的 最 大 动态 分 区 个 数 。 如 果 
pernode 某 个 mapper 或 reducer 尝试 创建 大 于 这 个 值得 分 区 的 话 ， 会 
抛 出 一 个 致命 错误 信息 
hive.exec.max.dynamic.partitions | 1000 一 个 动态 分 区 创建 语句 可 以 创建 的 最 大 动态 分 区 个 数 。 如 果 
| 超过 这 个 值 ， 会 抛 出 一 个 致命 错误 信息 
hive.exec.max.created.files 100000 | 全 局 可 以 创建 的 最 大 文件 个 数 。 有 一 个 Hadoop 计数 器 会 跟 
踪 记 录 创 建 了 多 少 个 文件 ， 如 果 超 过 这 个 值 ， 会 抛 出 一 个 致 
Ay EH oa = É 
命 错 误 信息 


(4) 编辑 a.txt， 使 其 有 以 下 4 行 数据 ， 然 后 执行 后 面 的 语句 并 查 
看 结果 。 


aaa, US, CD 

aaa, US, CE 

ccc, CB, BB 

ccc, CB, BC 

hive» load data local 

inpath '/root/test' overwrite into table 


EIS 
hive> insert 


overwrite table 

t2 partition 
(country, state 

) select 

name, cty, st from 


Edb 
hive> select * from 


t2; 
bbb CA BB 


bbb CA BB 
bbb CA BC 
bbb CA BC 
ccc CB BB 
ccc CB BC 
aaa US CA 
aaa US CA 
aaa US CB 
aaa US CB 
aaa US CD 
aaa US CE 
hive» dfs -ls /user 


/hive/warehouse/test.db/t2/; 
Found 


3 items 
drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 


/hive/warehouse/test .db/t2/country=CA 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test .db/t2/country=CB 
drwxrwxrwt - root hive 0 2016-10-20 16:47 
/user 


/hive/warehouse/test.db/t2/country=US 
hive> dfs -ls /Vuser 


/hive/warehouse/test.db/t2/countryzUS; 
Found 


4 items 

drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 

/hive/warehouse/test.db/t2/country=US/state 

=CA 

drwxrwxrwt - root hive 0 2016-10-20 16:19 
/user 

/hive/warehouse/test.db/t2/country=US/state 


=CB 
drwxrwxrwt - root hive 0 2016-10-20 16:47 


/user 
/hive/warehouse/test.db/t2/country=US/state 
=C 
Seer - root hive 0 2016-10-20 16:47 
/user 
/hive/warehouse/test.db/t2/country=US/state 
=CE 
可 以 看 到 ， 现 在 表 中 有 12 条 数据 ，OVERWRITE 并 没有 覆盖 原来 
的 分 区 ， 而 是 追加 了 4 条 数据 ， 并 且 动 态 建立 了 新 的 分 区 目录 。 人 在 动态 
分 区 插入 功能 上 ， 管 理 分 区 表 和 外 部 分 区 表 的 行为 相同 ， 演 示 从 略 。 


(5) 使 用 load 做 动态 分 区 插入 。 


hive» load data local 

inpath '/root/test' into table 

t2 partition 

(country, state 

); 
FAILED: SemanticException 
org.apache.hadoop.hive.ql.metadata.HiveException: 
MetaException(message:Invalid partition key & values 


; keys [country, state 


, ], values []) 


By 以 看 到 , load 命 令 QV 不 支持 动态 分 区 插入 。 
过 以 上 的 示例 ， 我 们 对 Hive 表 的 动态 分 区 插入 总 结 如 下 : 


。 OVERWRITE 不 会 删除 已 有 的 分 区 目录 ， 只 会 追加 新 分 区 ， 并 
覆盖 已 有 分 区 的 非 分 区 数据 。 
。 不 能 使 用 LOAD 进 行动 态 分 区 插入 。 


6.5 BURGER 


本 章 前 面 做 了 很 多 Hive 表 上 的 实验 ， 目 的 都 是 为 了 在 Hive 中 建立 
数据 仓库 相关 的 表 做 技术 准备 。 现 在 我 们 已 经 清楚 了 Hive 支 持 的 文件 
格式 和 表 类 型 ， 以 及 如 何 支 持 事务 和 装载 数据 等 问题 ， 下 面 就 来 创建 
6.1 节 销售 订单 数据 仓库 中 的 表 。 在 这 个 场景 中 ， 源 数据 库 表 就 是 操作 
型 系统 的 模拟 。 我 们 在 cdh1 上 的 MySQL 中 建立 源 数据 库 表 。RDS 存 储 
原始 数据 ， 作 为 源 数据 到 数据 仓库 的 过 渡 ， 在 cdh2 上 的 Hive 中 建立 
RDS 库 表 。TDS 即 为 转化 后 的 多 维 数据 仓库 ， 在 cdh2 上 的 Hive 中 建立 
TDS 库 表 。 

有 几 点 需要 说 明 ， 我 们 假设 读者 有 SQL 的 使 用 经 验 ， 所 以 不 会 对 
基本 的 SQL 语句 做 过 多 的 解释 。Hive 表 我 们 没有 使 用 外 部 表 和 分 区 
表 ， 只 是 用 了 最 普通 的 表 类 型 ， 这 出 于 两 点 考虑 。 一 是 本 示例 的 目的 
是 说 明 Hadoop 生 态 圈 的 工具 可 以 满足 建设 传统 多 维 数据 仓库 的 技术 要 
求 ， 而 不 是 展示 某 一 种 工具 的 全 部 特性 ; 二 是 本 示例 更 像 是 一 个 POC 
验证 ， 我 们 尽量 简化 用 例 ， 不 过 多 涉及 性 能 优化 、 缓 存 、 安 全 或 其 他 


复杂 主题 。 


1. 执行 下 面 的 SQL 语句 在 MySQL 中 建立 源 数 据 库 表 


-- 建立 源 数 据 库 
drop 


database if exists 


source; 


create 
database source; 
use 


source; 


-- 建立 客户 表 
create table 


customer ( 
customer number int not null 


auto increment primary key comment 


' 客 户 编号 ， 主 键 '， 


customer name varchar 


(50) comment 


' 客 户 名 称 '， 


customer_street address varchar 


(50) comment 


' 客 户 住 址 '， 


customer zip code int comment 


' Bom, 


customer city varchar 


(30) comment 


' 所 在 城市 '， 


customer state varchar 


(2) comment 


所 在 省 份 ' 
); 
-- 建立 产品 表 
create table 


product ( 
product code int not null 


auto_increment primary key comment 


产品 编码 ， 主 键 '， 


product name varchar 


(30) comment 


' 产 品名 称 '， 


product_category varchar 


(30) comment 


' 产 品类 型 ， 
); 

-- 建立 销售 订单 表 
create table 


sales order ( 
order number int not null 


auto increment primary key comment 


' 订单 号 ， 主 键 ' ， 


customer number int comment 


' 客 户 编号 ' ， 
product code int comment 


"产品 编码 '， 


order date datetime comment 


' 订 单 日 期 '， 
entry_date datetime comment 


' 登 记 日 期 S 
order amount decimal 


(10 , 2 ) comment 


' 销售 金额 '， 


foreign key 


(customer_number) 


references 


customer (customer number) 
on delete cascade on update cascade 


foreign key 


(product code) 
references 


product (product code) 
on delete cascade on update cascade 


); 
2. 执行 下 面 的 SQL 语句 生成 源 库 测 试 数 据 


USe 


source; 
-- 生成 客户 表 测试 数据 


insert into 


customer 

(customer name,customer street address,customer zip code, 
customer city,customer state) 
values 


('really large customers', '7500 louise dr.',17050, 
'mechanicsburg','pa'), 

('small stores', '2500 woodland st.',17055, 
'pittsburgh','pa'), 

('medium retailers','1111 ritter 
rd.',17055,'pittsburgh', 'pa'), 

('good companies','9500 scott 

st.',17050, 'mechanicsburg', 'pa'), 

('wonderful shops','3333 rossmoyne 

rd.',17050, 'mechanicsburg', 'pa'), 

('loyal clients','7070 ritter rd.',17055, 'pittsburgh', 'pa'), 
('distinguished partners','9999 scott 

st.',17050, 'mechanicsburg', 'pa'); 


-- 生成 产品 表 测试 数据 


insert into 
product (product name,product category) 
values 


('hard disk drive', 'storage'), 
('floppy drive', 'storage'), 
('lcd panel', 'monitor'); 


-- 生成 100 条 销售 订单 表 测 试 数据 


drop procedure if exists 
generate sales order data; 
delimiter // 

create procedure 
generate sales order data() 
begin 


drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 
sales order where 
1-0; 

set 


Qstart date := unix timestamp('2016-03-01'); 
set 


Qend date :- unix timestamp('2016-07-01'); 
set 


while 


@i<=100 do 
set 


Qcustomer number := floor 
(1 * rand() 


= O)? 
set 


Qproduct code := floor 
(1 * rand() 


Ea 
set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 
(1000 + rand() 
* 9000); 

insert 


into temp sales order data values 


(Qi, @customer_number, @product_code, @order_date, @order_date,@a 


mount ); 
set 
@i:=@i+1; 
end while 


truncate table 


sales_order; 
insert into 


sales_order 
select null 


,customer number,product code,order date,entry date,order amo 
unt from 


temp sales order data order by 


order date; 
commit 


end 


// 
delimiter ; 


call 


generate sales order data(); 
说 明 : 


客户 表 和 产品 表 的 测试 数据 取 自 Dimensional Data Warehousing 
with MySQL 一 书 。 

创建 了 一 个 MySQL 存 储 过 程 生成 100 条 销售 订单 测试 数据 。 为 
了 模拟 实际 订单 的 情况 ， 订 单 表 中 的 客户 编号 、 产 品 编号 、 订 
单 时 间 和 订单 金额 都 取 一 个 范围 内 的 随机 值 ， 订 单 时 间 与 登记 
时 间 相 同 。 因 为 订单 表 的 主键 是 自 增 的 ， 为 了 保持 主键 值 和 订 
单 时 间 字 段 的 值 顺序 一 致 ， 引 入 了 一 个 名 为 
temp_sales_order_data 的 表 ， 存 储 中 间 临 时 数据 。 在 后 面 章节 中 
都 是 使 用 此 方案 生成 订单 测试 数据 。 


3. 执行 下 面 的 HiveQL 语 句 在 Hive 中 建立 RDS 库 表 


- - 建立 rds 数 据 库 
drop 


database if exists 


rds cascade 


了 
create 


database rds; 


rds; 
-- 建立 客户 过 渡 表 
create table 


customer ( 
customer number int comment 


'number', 
customer name varchar 


(30) comment 


'name', 
customer street address varchar 


(30) comment 


'address', 
customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 
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customer_state varchar 


(2) comment 


'state' 

); 

-- 建立 产品 过 渡 表 
create table 


product ( 


product code int comment 


'code', 
product name varchar 


(30) comment 


'name', 
product category varchar 


(30) comment 


'category' 
-- 建立 销售 订单 过 渡 表 
create table 


sales order ( 
order_number int comment 


'order number', 
customer number int comment 


'customer number', 
product code int comment 


'product code', 
order date timestamp comment 


'order date', 
entry date timestamp comment 


'entry date', 
order amount decimal 


(10 , 2 ) comment 


'order amount' 


); 


。 RDS 中 表 与 MySQL 里 的 源 表 完全 对 应 ， 其 字段 与 源 表 相同 。 
。 使 用 Hive 默 认 的 文件 格式 。 


e HiveQL 脚 本 中 的 列 注释 没有 使 用 中 文 ， 这 是 因为 Hive 1.1.0 中 ， 
中 文 注释 会 在 show create table 命 令 中 显示 乱码 ， 要 解决 这 个 问 
题 需 要 重新 编译 Hive 的 源码 ， 简 单 起 见 ， 这 里 都 使 用 了 英文 列 
注释 。 关 于 110 中 的 这 个 bug ， 可 参考 
https:Wissues.apache.orgVjira/browse/HIVE-11837。 示 例 数据 中 没 
有 使 用 中 文 ， 也 有 类 似 的 原因 。 


4. 执行 下 面 的 HiveQEL 语句 在 Hive 中 建立 TDS 库 表 


-- 建立 数据 仓库 数据 库 
drop 


database if exists 


dw cascade 


/ 

create 
database dw; 
use 


dw; 


-- 建立 日 期 维度 表 
create table 


date dim ( 
date sk int comment 


'surrogate key', 
date date comment 


‘date, yyyy-mm-dd', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year ' 
) 


comment 


'date dimension table' 
row format 


delimited fields terminated by 


T 
stored as 


textfile; 


-- 建立 客户 维度 表 


create table 


customer dim ( 
customer sk int comment 


'surrogate key', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 
customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 


OREL 
customer state varchar 


(2) comment 


'state', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 

) 

clustered by 
(customer sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


- -建立 产品 维度 表 


create table 


product dim ( 
product sk int comment 


'surrogate key', 
product code int comment 


'code', 
product name varchar 


(30) comment 


'name', 
product category varchar 


(30) comment 


'category', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 
clustered by 
(product sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


-- 建立 订单 维度 表 


create table 


order dim ( 
order sk int comment 


'surrogate key', 
order number int comment 


'number', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 

) 

clustered by 
(order sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


-- 建立 销售 订单 事实 表 


create table 


sales order fact ( 
order sk int comment 


'order surrogate key', 
customer sk int comment 


'customer surrogate key', 
product sk int comment 


'product surrogate key', 
order date sk int comment 


'date surrogate key', 
order amount decimal 


(10 , 2 ) comment 
'order amount' 

ET by 
(order sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
说 明 : 


。 按照 图 6-2 所 示 的 实体 关系 建立 多 维 数 据 仓库 中 的 维度 表 和 事实 


Ro 
。 除 日 期 维度 表 外 ， 其 他 表 都 使 用 ORC 文 件 格式 ， 并 设置 表 属 性 
支持 事务 。 


。 日 期 维度 表 只 会 退 加 数据 而 从 不 更 新 ， 所 以 使 用 以 逗号 作为 列 
分 隔 符 的 文本 文件 格式 。 

。 维度 表 虽 然 使 用 了 代理 键 ， 但 不 能 将 它 设 置 为 主键 ， 在 数据 库 
级 也 不 能 确保 其 唯一 性 。Hive 中 并 没有 主键 、 外 键 、 唯 一 性 约 


束 、 非 空 约束 这 些 关 系数 据 库 的 概念 。 


66 ”装载 日 期 维度 数据 


日 期 维度 在 数据 仓库 中 是 一 个 特殊 角色 。 日 期 维度 包含 时 间 概 
念 ， 而 时 间 是 最 重要 的 ， 因 为 数据 仓库 的 主要 功能 之 一 就 是 存储 历史 
duc d dut Lee m 个 时 间 特 征 。 装 载 日 期 数据 
有 三 个 常用 方法 : 预 装载 、 每 日 装载 一 天 、 从 源 数据 装载 日 期 。 

在 三 种 方法 中 ， 预 装载 最 为 常见 也 最 容易 实现 ， 本 示例 就 采用 此 
方法 ， 生 成 一 个 时 间 段 里 的 所 有 上 日期。 我们 预 装载 21 年 的 日 期 维度 数 
据 ， 从 2000 年 1 月 1 日 到 2020 年 12 月 31 日 。 使 用 这 个 方法 ， 在 数据 仓库 
生命 周期 中 ， 只 需要 预 装载 日 期 维度 一 次 。 预 装载 的 缺点 是 : 提早 消 
耗 磁 盘 空间 (这 点 空间 占用 通常 是 可 以 忽略 的 ) ; 可 能 不 需要 所 有 的 
日 期 CHEERÍEFH) o 

在 数据 库 中 生成 日 期 维度 数据 很 简单 ， 因 为 数据 库 一 般 都 提供 了 
丰富 的 日 期 时 间 函 数 ， 而 且 可 以 在 存储 过 程 的 循环 中 插入 数据 。 例 如 
下 面 的 MySQL 脚 本 可 以 用 于 生成 日 期 维度 数据 。 


建立 日 期 维度 数据 生成 的 存储 过 程 
Se // 
drop procedure if exists 


pre populate date // 
create procedure 


pre populate date (in 
start dt date 
, in 


end dt date 


) 
begin 
while 


start dt «- end dt do 


insert into 
date dim(date sk, date 
, month 
, month name, quarter, year 


) 


values 
(null 
, start dt, month 
(start dt), monthname(start dt), quarter(start dt), year 
(start dt)); 

set 
start dt - adddate 
(start dt, 1); 
end while 
/ 
commit 


/ 
end 


// 
delimiter ; 


-- 生成 日 期 维度 数据 


set 


foreign key checks-0; 
truncate table 


date dim; 
call 


pre populate date('2000-01-01', '2020-12-31'); 
set 


foreign key checks-1; 


目前 Hive 中 只 能 写 HiveQL 语 句 ， 还 不 支持 SQL 的 过 程 化 语言 编 
程 ， 因 此 在 本 示例 中 我 们 编写 了 一 个 名 为 date_dim_generate.sh 的 shell 
脚本 文件 ， 它 从 命令 行 接收 起 始 日 期 和 终止 日 期 参数 ， 按 日 期 维度 表 
的 定义 生成 期 间 的 日 期 数据 文本 文件 ， 最 后 将 生成 的 文本 文件 上 传 到 
日 期 维度 表 对 应 的 HDFS 目 录 下 ， 以 这 种 方式 生成 日 期 维度 表 的 数 
据 。date_dim_generate.sh 文 件 内 容 如 下 : 


#!/bin/bash 

date1="$1" 

date2="$2" 

tempdate= date -d "$datei" +%F` 

tempdateSec- date -d "$date1" +%s` 

enddateSec-' date -d "$date2" +%s` 

min=1 

max= expr N( $enddateSec - $tempdateSec \) / \( 24 \* 60 \* 
60 ALERT 

cat /dev/null » ./date dim.csv 


while [ $min -le $max ] 
do 
month= date -d "$tempdate" +%m` 
month_name="date -d "$tempdate" +%B 
quarter= echo $month | awk '{print int(($0-1)/3)*41]'" 
year= date -d "$tempdate" +%Y` 
echo 
${min}", "${tempdate}", "${month}", "${month_name}", "${quarter }" 
, $iyearj 
>> ./date_dim.csv 
tempdate- date -d "+$min day $date1" +%F` 
tempdateSec- date -d "+$min day $date1" +%s` 


min= expr $min + 1° 
done 


hdfs dfs -put -f date_dim.csv 
/user/hive/warehouse/dw.db/date_dim/ 


该 shell 文 件 在 生成 记录 前 先 会 清空 date_dim.csv 文 件 ， 并 且 在 向 
HDFS 上 传 时 使 用 了 -f 参 数 ， 因 此 可 以 反复 执行 ， 即 实现 了 所 谓 的 “ 震 
等 操作 ”。 现 在 执行 下 面 的 shell 命 令 生成 从 2000 年 1 月 1 日 到 2020 年 12 月 
31 日 的 日 期 维度 表 数 据 。 


./date dim generate.sh 2000-01-01 2020-12-31 


至 此 ， 我 们 的 示例 数据 仓库 模型 搭建 完成 ， 后 面 章节 将 实现 
ETL. 


6.7 “小 结 


(1) 使 用 一 个 简单 而 典型 的 销售 订单 示例 ， 建 立 数据 仓库 模型 。 


(2) Hive 常 用 的 四 种 文件 格式 为 TEXTFILE、SEQUENCEFILE、 
RCFILE、ORCFILE， 其 中 只 有 ORCFILE 支 持 事 务 和 行 级 更 新 ， 因 此 
是 多 维 数据 仓库 Hive 存 储 类 型 的 唯一 选择 。 


(3) 配置 Hive 支 持 事 务 需 要 在 hive-site.xml 文 件 中 增加 相关 属 
性 ， 还 要 向 3 个 Hive 元 数据 表 预 先 插入 数据 。 


(4) Hive 中 的 表 分 为 管理 表 和 外 部 表 ， 两 者 都 可 以 进行 分 区 。 
(5) load5load overwrite 语 句 用 来 向 Hive 表 装载 数据 ， 前 者 追 
加 ， 后 者 覆盖 。 


(6) 分 区 表 比 非 分 区 表 多 了 一 种 alter table ... add partition 的 数据 
装载 方式 。 


(7) 对 于 外 部 表 ， 除 了 在 删除 表 时 只 删除 元 数据 而 保留 表 数 据 目 
录 外 ， 其 数据 装载 行为 与 内 部 表 相 同 。 

(8) 本 示例 模型 在 MySQL 中 建立 源 库 表 ， 在 Hive 中 建立 RDS 和 
TDS 库 表 。 

(9) Hive 还 不 支持 SQL 的 过 程 化 语言 编程 ， 因 此 编写 shell 脚 本 预 
装载 日 期 维度 表 数 据 。 


第 7 章 
4 数据 抽取 


本 和 草 将 介绍 如 何 利用 Hadoop 提 供 的 工具 实现 数据 仓库 中 的 数据 抽 
取 ， 即 ETL 过 程 中 的 Extract 部 分 。 


首先 我 们 会 介绍 逻辑 数据 映射 的 概念 ， 它 是 实现 ETL 系统 的 基 
础 。 然 后 我 们 会 用 多 个 示例 说 明 如 何 捕获 变化 的 数据 ， 实 现 增 量 数据 
抽取 ， 以 及 将 数据 库 中 的 数据 导出 成 文本 文件 的 各 种 技术 。 业 务 系统 
可 能 同时 使 用 多 种 数据 库 系统 ， 这 些 系 统 在 物理 上 彼此 独立 ， 在 逻辑 
上 又 互相 联系 。 如 果 能 够 在 一 种 数据 库 中 访问 其 他 数据 库 ， 将 会 给 数 
据 集 成 带 来 极 大 的 便利 。 这 种 情况 下 就 会 用 到 本 章 介绍 的 分 布 式 查询 
技术 。Hadoop 生 态 圈 中 的 Sqoop 工 具 可 以 直接 在 关系 数据 库 和 HDFS 或 
Hive 之 间 互 导数 据 。 在 本 章 最 后 我 们 使 用 Sqoop 实 现 销售 订单 示例 的 数 
据 抽 取 过 程 ， 将 MySQL 中 的 产 数据 抽取 到 Hive 的 rds 数 据 库 中 。 


7.1 ”逻辑 数据 映射 


设计 ETL 过 程 的 首要 步骤 是 建立 一 个 有 效 的 逻辑 数据 上 映射。 逻辑 
数据 映射 有 时 也 叫做 血统 报告 ， 是 整个 ETL 过 程 实现 的 基础 。 

简单 说 逻辑 数据 映射 就 是 指 源 系统 中 的 对 象 和 目标 数据 仓库 中 的 
对 象 之 间 的 对 应 关系 ， 通 常用 一 个 表 或 者 电子 表格 的 形式 来 表示 。 它 
包括 以 下 特定 的 组 成 部 分 : 


。 目 标 组 件 。 包 括 数据 仓库 中 出 现 的 物理 表 名 称 、 表 类 型 (事实 
表 、 维 度 表 和 子 维 度 表 等 ) 、 列 名 称 、 列 的 数据 类 型 (字符 


c. ASS) 和 SCD 类 型 。 对 于 维度 表 ，SCD 表 示 是 类 型 1、 类 
型 2 或 者 类 型 3 的 缓慢 变化 维度 。 这 个 指标 对 一 个 维度 表 中 的 不 
同 列 可 以 是 不 同 的 。 比 如 在 客户 维度 中 ， 客 户 地 址 可 能 属于 类 
型 2 (保留 历史 信息 ) ， 而 姓名 可 能 属于 类 型 1 (Eum) 。 这 些 
SCD 类 型 将 在 下 一 六 展开 详细 探讨 。 

源 系统 组 件 。 包 括 数据 源 名 称 、 源 表 名 、 源 列 名 及 其 数据 类 
型 。 数 据 源 名称 可 以 是 源 数据 所 在 的 数据 库 实 例 的 名 称 ， 它 通 
常 是 指 连 接 源 数据 库 所 需 的 连接 字符 串 。 如 果 数 据 出 现在 文件 
系统 中 ， 数 据 源 名 称 也 可 以 是 一 个 文件 名 。 这 时 还 需要 包含 这 
个 文件 的 完整 路 径 。 源 表 名 指 的 是 源 数据 所 在 表 的 名 称 。 很 多 
时 候 源 数据 库 中 有 很 多 表 ， 但 只 需 列 出 与 生成 目标 数据 仓库 表 
相关 的 所 有 表 即 可 。 源 列 名 是 生成 目标 表 所 需 的 相关 列 。 只 需 
简单 列 出 装载 目标 列 需 要 的 所 有 列 。 源 列 与 目标 列 之 间 的 关联 
在 转换 部 分 记录 。 

转换 。 源 数据 与 期 望 的 目标 数据 仓库 格式 对 应 所 需 的 详细 操 
作 。 这 部 分 通常 用 伪 代 码 来 编写 。 逻 辑 数 据 映 射 中 的 列 有 时 是 
组 合 的 。 比 如 ， 源 数据 库 、 表 名 称 和 列 名 称 可 能 被 组 合 在 一 个 
源 列 中 。 这 个 组 合 列 的 信息 可 以 用 圆 点 来 分 隔 ， 如 
ORDERS.STATUS.STATUS_CODE。 有 时 候 转 换 在 逻辑 数据 映 
射 中 是 空 的 ， 这 意味 着 不 需要 进行 转换 ， 数 据 就 可 以 直接 装载 
到 数据 仓库 中 。 人 逻辑 数据 映射 文档 的 内 容 提供 了 进行 有 效 ETL 
过 程 的 所 有 关键 信息 。 


逻辑 数据 映射 中 的 某 些 部 分 看 起 来 很 简单 并 且 很 直接 。 然 而 ， 当 
仔细 研究 的 时 候 ， 该 文档 就 会 揭示 许多 ETL 开 发 者 可 能 忽略 的 隐藏 需 
求 。 这 个 文档 的 主要 目标 是 为 ETL 开 发 者 提供 一 个 清晰 的 蓝图 ， 精 确 
地 说 明 可 以 从 ETL 过 程 获得 什么 。 逻 辑 数据 映射 表 必 须 清晰 地 描述 转 
换 过 程 中 包含 的 动作 流程 ， 不 能 有 任何 存疑 的 地 方 。 


逻辑 数据 映射 为 ETL 开 发 人 员 传送 更 为 清晰 的 数据 流 信息 。 映 射 
关系 包括 有 关 数据 在 存储 到 数据 仓库 前 所 经 历 的 各 种 变化 信息 ， 这 对 
于 开发 过 程 中 对 数据 的 追踪 审查 非常 重要 。 把 ETL 过 程 的 信息 归纳 为 
元 数据 ， 将 数据 源 结构 、 目 标 结构 、 数 据 转换 规则 、 映 射 关系 、 数 据 
的 上 下 文 等 元 数据 保存 在 文档 中 ， 为 开发 ETL 系 统 提供 了 很 好 的 参考 
言 息 。 追 踪 数 据 来 源 与 转换 信息 ， 有 助 于 设计 人 员 理解 系统 环境 变化 
所 造成 的 影响 。 逻 辑 数据 映射 中 还 会 标识 一 些 需要 引起 重视 的 操作 ， 
比如 隐 式 数据 转换 。 在 把 源 数据 类 型 转换 成 目标 数据 类 型 时 ， 可 能 会 
因为 字符 集 或 其 他 的 原因 引起 字 节 数量 增 减 ， 比 如 从 utf8 变 为 latin1 
时 ， 字 段 数据 类 型 定义 的 长 度 也 会 发 生 相应 的 变化 ， 并 且 有 时 这 种 变 
化 是 隐 含 的 。 在 这 种 情况 下 可 能 会 丢失 数据 。 为 了 提醒 开发 人 员 注 
意 ， 应 该 在 文档 中 标记 隐 式 数据 转换 。 

一 般 按 如 下 步 又 建立 逻辑 数据 映射 。 

(1) 识别 数据 源 。 

通常 源 系统 的 数据 模型 仅仅 指出 了 主要 数据 源 。 如 果 开 发 团队 继 
续 向 下 挖掘， 会 发 现 每 一 个 可 能 用 到 的 数据 源 。 然 而 标识 数据 源 有 时 
会 非常 复杂 ， 如 有 很 多 是 遗留 系统 ， 同 一 含义 的 数据 经 过 多 次 迭代 形 
成 很 多 份 ， 它 们 对 应 的 数据 库 也 可 能 有 各 种 各 样 的 名 字 。 对 此 ， 一 种 
较为 可 靠 的 解决 方案 是 使 用 一 个 中 心 知识 库 管理 所 有 的 数据 源 。 

(2) 收集 源 系统 文档 。 

(3) 建立 源 系统 跟踪 报告 。 

报告 应 该 显示 每 个 数据 源 的 负责 人 、 生 成 者 和 使 用 者 。 它 还 包含 
很 多 数据 源 的 特性 : 所 属 主题 域 、 接 口 名 称 、 业 务 名 称 、 业 务 属 主 、 
技术 属 主 、 数 据 库 管理 系统 、 生 产 服务 器 、 数 据 大 小 、 数 据 复杂 性 、 
每 天 事务 数 、 优 先 级 、 日 常 使 用 数量 、 部 门 或 公司 使 用 情况 、 系 统 平 
台 和 其 他 说 明 。 


(4) 建立 目标 数据 仓库 实体 关系 图 。 


实体 关系 图 显示 两 个 或 者 更 多 的 实体 相互 之 间 的 关系 。 关 系 通过 
实体 之 间 的 连 线 表示 。 实 体 关系 图 的 内 容 除了 必需 的 实体 及 其 属性 ， 
还 应 该 包括 : 


每 个 实体 的 唯一 标识 。 

每 个 属性 的 数据 类 型 。 

实体 之 间 的 关系 。 这 是 一 个 非常 重要 的 属性 ， 会 影响 数据 抽取 
的 顺序 。 


(5) 建立 模型 映射 。 


从 产 系统 到 目标 数据 仓库 模型 之 间 的 映射 类 型 有 : 


一 对 一 。 一 个 源 系统 的 数据 实体 只 对 应 一 个 目标 模型 的 数据 实 
体 。 如 果 产 类 型 与 目标 类 型 一 致 ， 则 直接 映射 。 如 果 两 者 间 类 
型 不 一 样 ， 则 必须 经 过 转换 再 映射 。 

一 对 多 。 一 个 源 系统 的 数据 实体 对 应 多 个 目标 模型 的 数据 实 
体 ， 是 将 一 个 源 实体 拆 分 为 多 个 目标 实体 的 情况 。 

一 对 零 。 源 系统 的 数据 实体 没有 与 目标 模型 的 数据 实体 对 应 ， 
它 不 在 处 理 的 计划 范围 之 内 。 

零 对 一 。 一 个 目标 模型 的 数据 实体 没有 与 任何 一 个 源 数 据 实体 
对 应 起 来 。 例 如 典型 的 时 间 维 度 表 等 。 

多 对 一 。 多 个 源 系统 的 数据 实体 只 对 应 一 个 目标 模型 的 数据 实 
体 。 

多 对 多 。 多 个 源 系 统 的 数据 实体 对 应 多 个 目标 模型 的 数据 实 
体 。 


(6) 建立 属性 映射 。 


。 一 对 一 。 源 实体 的 一 个 数据 属性 列 只 对 应 目标 实体 的 一 个 数据 
属性 列 。 如 果 源 类 型 与 目标 类 型 一 致 ， 则 直接 映射 。 如 果 两 者 
间 类 型 不 一 样 ， 则 必须 经 过 转换 映射 。 

一 对 多 。 源 实体 的 一 个 数据 属性 列 对 应 目标 实体 的 多 个 数据 属 
性 列 ， 是 将 一 个 源 属性 列 拆 分 为 多 个 目标 属性 列 的 情况 。 

一 对 零 。 源 实体 的 数据 属性 列 没 有 与 目标 实体 的 数据 属性 列 对 
应 ， 它 不 在 处 理 的 计划 范围 之 内 。 

。 零 对 一 。 一 个 目标 实体 的 数据 属性 列 没 有 与 任何 一 个 源 数据 属 
性 列 对 应 起 来 。 例 如 典型 的 维 表 和 事实 表 中 的 代理 健 ，SCD 的 
版 本 号 、 起 始 时 间 、 过 期 时 间 等 。 

多 对 一 。 源 实体 的 多 个 数据 属性 列 只 对 应 目标 实体 的 一 个 数据 
属性 列 。 

多 对 多 。 源 实体 的 多 个 数据 属性 列 对 应 目标 实体 的 多 个 数据 属 
性 列 。 


按照 上 述 步 又 建立 了 一 个 逻辑 数据 映射 后 ， 只 是 有 了 数据 结构 的 
模型 ， 我 们 还 必须 对 数据 内 容 本 身 进 行 分 析 ， 并 收集 所 有 的 业务 规 
则 。 例 如 ， 是 否 存在 非 日 期 类 型 的 列 中 的 存储 日 期 值 的 情况 ， 或 者 数 
据 是 否 允 许 为 空 。 要 检查 源 数据 库 中 每 一 个 外 键 是 否 有 NULL 值 。 如 
果 存 在 NULL 值 ， 必 须 对 表 进 行 外 关联。 如果 NULL 不 是 外 键 而 是 一 个 
普通 列 ， 那 么 必须 有 一 个 处 理 NULL 数 据 的 业务 规则 。 作 为 一 个 设计 
原则 ， 只 要 允许 ， 数 据 仓 库 加 载 数据 一 定 要 用 默认 值 代替 NULL。 


逻辑 数据 映射 是 建立 ETL 物 理工 作 计划 的 指南 。 它 明确 了 源 数据 
组 件 和 目标 组 件 ， 并 标识 了 它们 之 间 的 对 应 关系 。 逻 辑 数据 映射 还 可 
能 是 一 个 提交 给 数据 仓库 最 终 用 户 的 交付 物 。 


7.2 ”数据 抽取 方式 


抽取 数据 是 ETL 处 理 过 程 的 第 一 个 步 又， 也 是 数据 仓库 中 最 重要 
和 最 具有 挑战 性 的 部 分 ， 适 当 的 数据 抽取 是 成 功 建立 数据 仓库 的 关 
HE 0 


从 源 抽取 数据 导入 数据 仓库 或 过 渡 区 有 两 种 方式 ， 可 以 从 源 把 数 
据 抓 取出 来 ( 拉 ) ， 也 可 以 请 求 源 把 数据 发 送 ( 推 到 数据 仓库 。 影 
响 选 择 数据 抽取 方式 的 一 个 重要 因素 是 操作 型 系统 的 可 用 性 和 数据 
量 ， 这 是 抽取 整个 数据 还 是 仅仅 抽取 自 最 后 一 次 抽取 以 来 的 变化 数据 
的 基础 。 我 们 考虑 以 下 两 个 问题 : 


e 需要 抽取 哪 部 分 源 数 据 加 载 到 数据 仓库 ? 有 两 种 可 选 方式 ， 完 
全 抽取 和 变化 数据 捕获 。 

。 数据 抽取 的 方向 是 什么 ? 有 两 种 方式 ， 拉 模式 ， 即 数据 仓库 主 
动 去 源 系统 拉 取 数据 ， 推 模式 ， 由 源 系统 将 自己 的 数据 推送 给 
数据 仓库 。 


对 于 第 二 个 问题 来 说 ， 通 常 要 改变 或 增加 操作 型 业务 系统 的 功能 
是 非常 困难 的 ， 这 种 困难 不 仅 是 技术 上 的 ， 还 有 来 自 于 业务 系统 用 户 
及 其 开发 者 的 阻力 。 理 论 上 讲 ， 数 据 仓库 不 应 该 要 求 对 源 系 统 做 任何 
改造 ， 实 际 上 也 很 少 由 源 系 统 推 数据 给 数据 仓库 。 因 此 对 这 个 问题 的 
答案 比较 明确 ， 大 都 采用 拉 数 据 模 式 。 下 面 我 们 着 重 讨论 第 一 个 问 


题 。 


如 果 数 据 量 很 小 并 且 易 处 理 ， 一 般 来 说 采取 完全 源 数据 抽取 ， 就 
是 将 所 有 的 文件 记录 或 所 有 的 数据 库 表 数据 抽取 至 数据 仓库 。 这 种 方 
式 适 合 基础 编码 类 型 的 源 数据 ， 比 如 邮政 编码 、 学 历 、 民 族 等 。 基 础 
编码 型 源 数 据 通 常 是 维度 表 的 数据 来 源 。 如 果 源 数据 量 很 大 ， 抽 取 全 
部 数据 是 不 可 行 的 ， 那 么 只 能 抽取 变化 的 源 数据 ， 即 最 后 一 次 抽取 以 
来 发 生 了 变化 的 数据 。 这 种 数据 抽取 模式 称 为 变化 数据 捕获 ， 简 称 


CDC， 常 被 用 于 抽取 操作 型 系统 的 事务 数据 ， 比 如 销售 订单 、 用 户 注 
册 ， 或 各 种 类 型 的 应 用 日 志 记 录 等 。 


CDC 大 体 可 以 分 为 两 种 ， 一 种 是 侵入 式 的 ， 另 一 种 是 非 侵 入 式 
的 。 所 谓 侵 入 式 的 是 指 CDC 操 作 会 给 源 系统 带 来 性 能 的 影响 。 只 要 
CDC 操 作 以 任何 一 种 方式 对 源 库 执 行 了 SQL 语句 ， 就 可 以 认为 是 侵入 
式 的 CDC。 常用 的 四 种 CDC 方 法 是 : 基于 时 间 惟 的 CDC、 基 于 触发 器 
的 CDC、 基 于 快照 的 CDC、 基 于 日 志 的 CDC， 其 中 前 三 种 是 侵入 性 
的 。 表 7-1 总 结 了 4 种 CDC 方 案 的 特点 。 


表 7-1 四 种 CDC 方 案 比较 


能 区 分 插入 /更 新 fü 是 是 是 
周期 内 ， 检 测 到 多 次 更 新 fü 是 i: 是 
能 检测 到 删除 f 是 是 是 
不 具有 侵入 性 f f 7 是 
支持 实时 fh 是 f 是 
不 依赖 数据 库 是 f 是 T 


1. 基于 时 间 惟 的 CDC 


基于 源 数据 的 CDC 要 求 源 数据 里 有 相关 的 属性 列 ， 抽 取 过 程 可 以 
利用 这 些 属性 列 来 判断 哪些 数据 是 增 量 数据 。 最 常见 的 属性 列 有 以 下 
两 种 。 


。 ER: 这 种 方法 至 少 需 要 一 个 更 新 时 间 戳 ， 但 最 好 有 两 个 ， 
一 个 插入 时 间 戳 ， 表 示 记 录 何 时 创建 ; 一 个 更 新 时 间 戳 ， 表 示 
记录 最 后 一 次 更 新 的 时 间 。 

序列 : 大 多 数 数据 库 系 统 都 提供 自 增 功 能 。 如 果 数 据 库 表 列 被 
定义 成 自 增 的 ， 就 可 以 很 容易 地 根据 该 列 识别 出 新 插入 的 数 
据 。 


这 种 方法 的 实现 较为 简单 ， 假 设 表 tl 中 有 一 个 时 间 惟 字段 
last_inserted，t2 表 中 有 一 个 自 增 序列 字段 d， 则 下 面 SQL 语 句 的 查询 结 
果 就 是 新 增 的 数据 ， 其 中 {last_load_time} 和 {last_load_id} 分 别 表示 ETL 
系统 中 记录 的 最 后 一 次 数据 法 载 时 间 和 最 大 自 增 序列 号 。 


select * from 
ti where 


last inserted > (last load time); 
select * from 


t2 where 


id > (last load id); 


通常 需要 建立 一 个 额外 的 数据 库 表 存储 上 一 次 更 新 时 间或 上 一 次 
抽取 的 最 后 一 个 序列 号 。 在 实践 中 ， 一 般 是 在 一 个 独立 的 模式 下 或 在 
数据 过 渡 区 里 创建 这 个 参数 表 。 基 于 时 间 戳 和 自 增 序列 的 方法 是 CDC 
最 简单 的 实现 方式 ， 也 是 最 常用 的 方法 ， 但 它 的 缺点 也 很 明显 ， 主 要 
如 下 : 


不 能 区 分 插入 和 更 新 操作 。 只 有 当 产 系统 包含 了 插入 时 间 戳 和 
更 新 时 间 戳 两 个 字段 ， 才 能 区 别 插入 和 更 新 ， 否 则 不 能 区 分 。 
不 能 记录 删除 记录 的 操作 。 不 能 捕获 到 删除 操作 ， 除 非 是 逻辑 
删除 ， 即 记录 没有 被 真 的 删除 ， 只 是 做 了 逻辑 上 的 删除 标志 。 
无 法 识别 多 次 更 新 。 如 果 在 一 次 同步 周期 内 ， 数 据 被 更 新 了 多 
次 ， 只 能 同步 最 后 一 次 更 新 操作 ， 中 间 的 更 行 操作 都 丢失 了 。 
不 具有 实时 能 力 。 时 间 稚 和 基于 序列 的 数据 抽取 一 般 适 用 于 批 
量 操作 ， 不 适合 于 实时 场景 下 的 数据 抽取 。 


这 种 方法 是 具有 侵入 性 的 ， 如 果 操 作 型 系统 中 没有 时 间 戳 或 时 间 
戳 信 息 是 不 可 用 的 ， 那 么 不 得 不 通过 修改 源 系统 把 时 间 戳 包含 进去 ， 


首先 要 求 修改 操作 型 系统 的 表 包 含 一 个 新 的 时 间 戳 列 ， 然 后 建立 一 个 
触发 器 ， 在 修改 一 行 时 更 新 时 间 戳 列 的 值 。 在 实施 这 些 操作 前 必须 被 
产 系 统 的 拥有 者 所 接受 ， 并 且 要 仔细 评估 对 源 系 统 产 生 的 影响 。 下 面 
是 一 个 Oracle 数 据 库 的 例子 。 当 t1 表 上 执行 了 insert 或 update 操 作 时 ， 触 
发 器 会 将 last_updated 字 段 更 新 为 当前 系统 时 间 。 


alter table 
t1 add 


last updated date 


create or replace trigger 
trigger on t1 change 
before insert or update 
on 
t1 
for each row 


begin 


;new 


.last updated :- sysdate 
end 
/ 


2。 基 于 触发 器 的 CDC 


当 执 行 INSERT、UPDAIE、DELETE 这 些 SQL 语句 时 ， 可 以 激活 
数据 库 里 的 触发 器 ， 并 执行 一 些 动作 ， 就 是 说 触发 器 可 以 用 来 捕获 变 
更 的 数据 并 把 数据 保存 到 中 间 临 时 表 里 。 然 后 这 些 变 更 的 数据 再 从 临 
时 表 中 取出 ， 被 抽取 到 数据 仓库 的 过 渡 区 里 。 但 在 大 多 数 场合 下 ,不 
允许 向 操作 型 数据 库 里 添加 触发 器 (业务 数据 库 的 变动 通常 都 异常 慎 
=) ， 而 且 这 种 方法 会 降低 系统 的 性 能 ， 所 以 此 方法 用 的 并 不 是 很 


多 。 


作为 直接 在 源 数据 库 上 建立 触发 器 的 替代 方案 ， 可 以 使 用 源 数据 
库 的 复制 功能 ， 把 产 数 据 库 上 的 数据 复制 到 备 库 上 ， 在 备 库 上 建立 触 
发 器 以 提供 CDC 功 能 。 尽 管 这 种 方法 看 上 去 过 程 见 余 ， 且 需要 额外 的 
存储 空间 ， 但 实际 上 这 种 方法 非常 有 效 ， 而 且 没有 侵入 性 。 复 制 是 大 
部 分 数据 库 系统 的 标准 功能 ， 如 MySQL、Oracle 和 SQL Server 等 都 有 
各 自 的 数据 复制 方案 。 


一 个 类 似 于 内 部 触发 器 的 例子 是 Oracle 的 物化 视图 日 志 。 这 种 日 
志 被 物化 视图 用 来 识别 改变 的 数据 ， 并 且 这 种 日 志 对 象 能 够 被 最 终 用 
户 访问 。 一 个 物化 视图 日 志 可 以 建立 在 每 一 个 需要 捕获 变化 数据 的 源 
表 上 。 之 后 任何 时 间 在 产 表 上 对 任何 数据 行 做 修改 时 ， 都 有 一 条 记录 
插入 到 物化 视图 日 志 中 表示 这 一 行 被 修改 了 。 如 果 想 使 用 基于 触发 器 
的 CDC 机 制 ， 并 且 源 数据 库 是 Oracle， 这 种 物化 视图 日 志方 案 是 很 方 
便 的 。 物 化 视图 日 志 依 赖 于 触发 器 ， 但 是 它们 提供 了 一 个 益处 是 ， 建 
立 和 维护 这 个 变化 数据 捕获 系统 已 经 由 Oracle 自 动 管理 了 。 我 们 甚至 
可 以 在 物化 视图 上 建立 自己 的 触发 器 ， 每 次 物化 视图 刷新 时 ， 触 发 器 
基于 刷新 时 间 点 的 物化 视图 日 志 归 并 结果 ， 在 一 些 场景 下 (只 要 记录 
两 次 刷新 时 间 点 数据 的 差异 ， 不 需要 记录 两 次 刷新 之 间 的 历史 变化 ) 
可 以 简化 应 用 处 理 。 下 面 是 一 个 Oracle 物 化 视图 的 例子 。 每 条 数据 的 
变化 可 以 查询 物化 视图 日 志 表 mlog$_tbl1， 两 个 刷新 时 间 点 之 间 的 数 
据 差 异 ， 可 以 查询 mv_tbll_tri 表 。 


-- 建立 mv 测试 表 
create table 


tbli(a number 


,D varchar2 


(20); | — 
create unique index 


tbli pk on 


tbli (a); 
alter table 


tbli add 
(constraint 
tbli pl primary key 


(a)); 
-- 建立 mv 日 志 ， 单 一 表 聚 合 视 图 的 快速 刷新 需要 指定 ijncluding new values 
Tf 


create 
materialized view log on 


tbli including new values 
/ 

-- 建立 mv 
create 

materialized view 


mv tbli build immediate 


refresh fast 
start with to date 


('2013-06-01 08:00:00', 'yyyy-mm-dd hh24:mi:ss') 
next sysdate 


+ 1/24 


as select * from 

tbl1; 

-- 建立 trigger 测 试 表 
create table 

mv tbli tri (a number 
,D varchar 


(20),c varchar 
(20)); 
-- 建立 trigger 
create or replace trigger 
tri mv 
after delete or insert or update 
on 
mv tbli 
referencing new as new old as old 
for each row 
begin 


case 


when 


inserting then 


insert into 
mv tbli tri values 
( : new 


.a, :new 


.b, 'insert'); 
when 


updating then 


insert into 
mv tbli tri values 
( : new 
.a, :new 


.b, 'update'); 
when 


deleting then 


insert into 
mv tbli tri values 
( : 01d 
.a, :old 
.b, 'delete'); 
end case 
exception 
when others then 


raise 


/ 
end 


tri mv; 
/ 


-- 对 表 tb11 进 行 一 系列 增删 改 操作 


-- 手工 刷新 mv 


exec 


dbms mview.refresh('mv tbl1'); 


- 查看 物化 视图 日 志 
select * from 


mlog$ tbl1; 


- - 检查 trigger 测 试 表 
select * from 


mv tbli1 tri; 


3。 基 于 快照 的 CDC 


如 果 没 有 时 间 戳 ， 也 不 允许 使 用 触发 器 ， 融 要 使 用 快照 表 了 。 可 
以 通过 比较 源 表 和 快照 表 来 获得 数据 变化 。 快 照 就 是 一 次 性 抽取 源 系 
统 中 的 全 部 数据 ， 把 这 些 数据 装载 到 数据 仓库 的 过 渡 区 中 。 下 次 需 
同步 时 ， 再 从 源 系统 中 抽取 全 部 数据 ， 并 把 这 些 全 部 数据 也 放 到 数据 
仓库 的 过 渡 区 中 ， 作 为 这 个 表 的 第 二 个 版 本 ， 然 后 再 比较 这 两 个 版 本 
的 数据 ， 从 而 找到 变化 。 

有 多 个 方法 可 以 获得 这 两 个 版 本 数据 的 差异 。 假 设 表 有 两 个 列 id 
和 name，id 是 主键 列 。 该 表 的 第 一 、 第 二 个 版 本 的 快照 表 名 为 
snapshot 1. snapshot 2。 下 面 的 SQL 语句 在 主键 ia 列 上 做 全 外 链接 ， 
并 根据 主键 比较 的 结果 增加 一 个 标志 字段 ，I 表 示 新 增 ，U 表 示 更 新 ， 
DD 代表 删除 ，N 代 表 没 有 变化 。 外 层 查 询 过 滤 掉 没有 变化 的 记录 。 


select * from 
(select case when t2.id is null then 'D' 
when ti1.id is null then 'I' 
when ti.name <> t2.name then 'U' 
else 'N' 
end as flag, 
case when t2.id is null then ti.id else t2.id end as 


id, 
t2.name 
from snapshot 1 t1 full outer join snapshot 2 t2 on t1i.id = 
t2.id) a 
where flag <> 'N'; 


当然 ， 这 样 的 SQL 语句 需要 数据 库 支 持 全 外 链接 ， 对 于 MySQL 这 
样 不 支持 全 外 链接 的 数据 库 ， 可 以 使 用 类 似 下 面 的 SQL 语句 : 


select 

'U' as 

flag, t2.id as 
id, t2.name as 


name 
from 


snapshot 1 t1 inner join 
snapshot 2 t2 on 


ti.id = t2.id 
where 


ti.name != t2.name 
union all 
select 

'D' as 

flag, ti.id as 

id, ti.name as 


name 
from 


snapshot 1 t1 left join 


snapshot 2 t2 on 


[ed ate} = je2, a0! 
where 


t2.id is null 
union all 


select 

'I' as 

flag, t2.id as 
id, t2.name as 


name 
from 


snapshot 2 t2 left join 
snapshot 1 t1 on 


(EZ palo] = read 
where 


ti.id is null 


基于 快照 的 CDC 可 以 检测 到 插入 、 更 新 和 删除 的 数据 ， 这 是 相对 
于 基于 时 间 戳 的 CDC 方 案 的 优点 。 它 的 缺点 是 需要 大 量 的 存储 空间 来 
保存 快照 。 另 外 ， 当 表 很 大 时 ， 这 种 查询 会 有 比较 严重 的 性 能 问题 。 


4。 基 于 日 志 的 CDC 
最 复杂 的 和 最 没有 侵入 性 的 CDC 方 法 是 基于 日 志 的 方式 。 数 据 库 


会 把 每 个 插入 、 更 新 、 删 除 操作 记录 到 日 志 里 。 如 使 用 MySQL 数 据 
车 ， 只 要 在 数据 库 服务 器 中 启用 二 进 制 日 志 (设置 log_bin 服 务 器 系统 


变量 ) ， 之 后 就 可 以 实时 从 数据 库 日 志 中 读 取 到 所 有 数据 库 写 操作 ， 
并 使 用 这 些 操作 来 更 新 数据 仓库 中 的 数据 。 这 种 方式 需要 把 二 进 制 日 
志 转 为 可 以 理解 的 格式 ， 然 后 再 把 里 面 的 操作 按照 顺序 读 取出 来 。 


MySQL 提 供 了 一 个 叫做 mysqlbinlog 的 日 志 读 取 工 具 。 这 个 工具 可 
以 把 二 进 制 的 日 志 格 式 转换 为 可 读 的 格式 ， 然 后 就 可 以 把 这 种 格式 的 
输出 保存 到 文本 文件 里 ， 或 者 直接 把 这 种 格式 的 日 志 应 用 到 MySQL 客 
户 端 用 于 数据 还 原 操 作 。mysqlbinlog 工 具有 很 多 命令 行 参数 ， 其 中 最 
重要 的 一 组 参数 可 以 设置 开始 一 截止 时 间 惟 ， 这 样 能 够 从 日 志 里 截取 
一 段 时 间 的 日 志 。 另 外 ， 日 志 里 的 每 个 日 志 项 都 有 一 个 序列 号 ， 也 可 
以 用 来 做 偏 移 操作 。MySQL 的 日 志 提供 了 上 述 两 种 方式 来 防止 CDC 过 
程 发 生 重 复 或 丢失 数据 的 情况 。 下 面 是 使 用 mysqlbinlog 的 两 个 例子 。 


mysqlbinlog --start-position-120 jbms binlog.000002 | mysql - 
u root -p123456 

mysqlbinlog --start-date="2011-02-27 13:10:12" --stop- 
date="2011-02-27 13:47:21" 

jbms binlog.000002 > temp/002.txt 


第 一 条 命令 将 jbms_binlog.000002 文 件 中 从 120 偏 移 量 以 后 的 操作 
应 用 到 一 个 MySQL 数 据 库 中 。 第 二 条 命令 将 jbms_binlog.000002 文 件 中 
一 段 时 间 的 操作 格式 化 输出 到 一 个 文本 文件 中 。 


其 他 数据 库 也 有 类 似 的 方法 ， 下 面 再 来 看 一 个 使 用 Oracle 日 志 分 
析 的 例子 。 假 设 有 个 项 目 提 出 的 需求 是 这 样 的 : 部 署 两 个 相同 的 
Oracle 数 据 库 A、B， 两 个 库 之 间 没 有 网 络 连接 ， 要 定期 把 A 库 里 的 数 
据 复制 到 B 库 。 要 求 : 第 一 应 用 程序 不 做 修改 。 第 二 实现 增 量 数据 更 
新 ， 并 且 不 允许 重复 数据 导入 。 


分 析 : _ Oracle 提供 了 DBMS_LOGMNR 系 统 包 可 以 分 析 归 档 日 志 。 
我 们 只 要 将 A 库 的 归档 日 志文 件 通过 离线 介质 复制 到 B 库 中 ， 再 在 B 库 


上 使 用 DBMS_LOGMNR 解 析 归 档 日 志 ， 最 后 将 格式 化 后 的 输出 应 用 
于 B 库 。 使 用 DBMS_LOGMNR 分 析 归 档 日 志 并 redo 变 化 的 方案 如 下 : 


(1) A 库 上 线 前 数据 库 需 要 启用 归档 日 志 /PNAO 


(2) 每 次 同步 数据 时 对 A 库 先 执行 一 次 日 志 切 换 ， 然 后 复制 归档 
日 志文 件 到 B 库 ， 复 制 后 删除 A 库 的 归档 日 志 。 

(3) 在 B 库 上 使 用 DBMS_LOGMNR 分 析 归 档 日 志文 件 并 重 做 变 
化 。 

因为 网 不 通 ， 手 工 复 制 文 件 的 工作 不 可 避免 ， 所 以 可 以 认为 上 述 
步骤 均 为 手工 操作 。 第 (3) 步 为 上 线 前 的 数据 库 准 备 ， 是 一 次 性 工 
fF; 第 (2). (3) 步 为 周期 性 工作 。 对 于 第 (3) 步 ， 可 以 用 
PL/SQL 脚 本 实现 。 首 先 在 B 库 机 器 上 规划 好 目录 ， 这 里 D:\logmine 为 
主 目录 ，D:\logmine\redo_log 存 放 从 人 A 库 复制 来 的 归档 日 志文 件 。 然 后 
在 B 库 上 执行 一 次 初始 化 对 象 脚本 ， 建 立 一 个 外 部 表 ， 存 储 归 档 日 志 
文件 名 称 。 


create or replace 
directory logfilename dir as 


'D:NlogmineN'; 
grant read, write on directory logfilename dir to uli; 


conn useri1/passwordi 


begin 
excute immediate 'create table 


logname ext (logfile name varchar2 


(300)) organization 
external 


(type 


oracle loader default 


directory data dir logfilename dir location 
(''log file name.txt''))'; 
exception when others then 
if sqlcode = -955 then -- 名 称 已 由 现 有 对 象 使 用 
null; 
else 
raise; 
end if; 
end; 
/ 


每 次 数据 同步 时 要 做 的 工作 是 : 


(1) 复制 A 库 归档 日 志文 件 到 B 的 Dogminevredo_log 目 录 。 
(2) 执行 D:\logmine\create_ext_table.bato 


(3) 前 面 步骤 成 功 执行 后 ， 删 除 第 (1) 步 复制 的 归档 日 志 
件 。 


create ext table.bat 脚 本 文件 内 容 如 下 : 


echo off 

dir /a-d /b /s D:\logmine\redo_log\*.log > 
D:\logmine\log_ file name.txt 

sqlplus useri/passwordi QD:NlogmineNcreate ext table.sql 


create_ext_table.sql 脚 本 文件 的 内 容 如 下 : 


begin 
for x in (select logfile name from logname ext) loop 
dbms logmnr.add logfile(x.logfile name); 
end loop; 
end; 
j 


execute dbms logmnr.start logmnr(options => dbms logmnr.committed data only); 
begin 
for x in (select sql redo 
from v$logmnr contents 
-- 只 应 用 UL 用 户 模 式 的 数据 变化 ， 一 定 要 按 提交 的 SCN 排序 
where table space != 'SYSTEM' and instr(sql redo, '"U1".') > 0 
order by commit scn) 
loop 
execute immediate x.sgl redo; 
end loop; 
end; 


/ 


exit; 


使 用 基于 数据 库 的 日 志 工 具 也 有 缺陷 ， 即 只 能 用 来 处 理 一 种 特定 
的 数据 库 ， 如 果 要 在 异 构 的 数据 库 环 境 下 使 用 基于 日 志 的 CDC 方 法 ， 
就 要 使 用 Oracle GoldenGate 之 类 的 商业 软件 。 


73 ”导出 成 文本 文件 


前 面 讨论 了 多 种 CDC 的 方法 ， 也 针对 每 种 方法 分 别 给 出 了 实现 的 
例子 。 目 前 为 止 只 是 解决 了 需要 抽取 哪些 数据 的 问题 ， 下 面 讨 论 如 何 
抽取 数据 的 问题 。 

要 回答 如 何 抽 取 数 据 的 问题 ， 我 们 需要 从 产 系 统 和 目标 数据 仓库 
两 端的 数据 存储 形式 入 手 。 在 传统 数据 仓库 环境 下 ， 源 系统 的 数据 通 
常 来 自 组 织 中 的 事务 类 应 用 系统 。 大 部 分 这 类 系统 都 是 把 数据 存储 在 
关系 数据 库 中 ， 如 MySQL、Oracle 或 SQL Server 等 。 而 我 们 的 目标 数 
据 仓库 及 其 过 站 区 是 建立 在 Hive 中 的 数据 库 ， 数 据 最 终 会 以 某 种 文件 
格式 存储 于 Hadoop 的 HDFS 上 。 


最 直接 的 想法 是 ，ETL 系 统 直 连 源 数 据 库 ， 然 后 编写 应 用 程序 或 
者 使 用 某 种 工具 ， 如 第 5 章 介 绍 的 Kettle， 或 后 面 即将 介绍 的 Sqoop 等 ， 
将 数据 抽取 到 HDFS 或 Hive 表 中 。 这 种 方法 的 一 个 主要 好 处 是 可 以 有 效 
利用 工具 本 身 提供 的 特性 ， 提 高 ETL 的 性 能 。 比 如 Kettle 可 以 多 线程 执 
行 一 个 步 又， 并 且 多 个 步骤 也 是 以 数据 流 的 方式 并 行 执行 的 ， 这 种 方 
式 会 大 大 加 快 数据 操作 执行 的 速度 ， 其 效果 用 SQL 是 难以 实现 的 。 但 
如 果 源 数据 库 没 有 可 用 的 驱动 程序 ， 或 者 因为 安全 问题 不 能 直 连 ， 在 
这 种 情况 下 ， 一 般 就 需要 将 源 数据 库 中 的 数据 导出 成 以 预定 义 好 的 分 
隔 符 ， 如 有 逗 号 分 隔 的 文本 文件 ， 然 后 用 Hadoop 的 dfs 命 令 将 文件 上 传 到 
Hive 表 对 应 的 目录 中 ， 或 者 使 用 Hive 的 load data local inpath 语 句 将 数据 
装载 到 目标 表 中 。 以 文本 文件 的 形式 交换 数据 是 一 种 可 行 的 通用 方 
法 ， 虽 然 大 多 数 关 系数 据 库 系 统 支 持 BLOB 这 样 的 二 进 制 数据 类 型 ， 
但 这 种 类 型 的 数据 很 少 被 用 于 分 析 场 景 ， 数 据 仓 库 中 的 数据 基本 都 能 
表示 成 纯 文本 的 形式 。 因 此 ， 下 面 我 们 重点 讨论 将 关系 数据 库 中 的 数 
据 导出 成 文本 文件 的 方法 。 


大 多 数 数 据 库 系统 都 提供 数据 导出 或 者 卸载 数据 的 工具 或 命令 ， 
从 一 个 数据 库 内 部 格式 导出 成 文本 文件 。 使 用 最 多 的 文本 文件 类 型 是 
分 陋 符 文 件 ， 在 这 种 文件 里 ， 每 个 字段 或 列 都 由 特定 字符 如 逗号 或 
TAB 符号 分 隔 。 通 常 这 类 文件 也 称 为 CSV GES ARIE) 文件 或 TAB 
符 分 隔 文 件 。 


很 多 时 候 数 据 抽取 并 不 需要 将 整个 数据 库 的 数据 基 载 到 文本 文 
件 。 有 些 情况 下 ， 适 合 引 载 整个 数据 库 表 和 对 象 ， 而 另外 一 些 情况 ， 
可 能 更 适合 荐 载 一 个 给 定 表 的 子 集 ， 这 个 源 系统 上 表 的 子 集 包含 最 后 
一 次 抽取 后 发 生 了 变化 的 表 ， 或 者 是 多 表 连 接 的 结果 。 不 同 的 抽取 技 
术 在 这 两 种 场景 下 表现 出 不 同 的 能 力 。 


如 果 源 系统 是 Oracle 数 据 库 ， 可 以 使 用 SQL*Plus 中 的 spool 命 令 完 
成 数据 导出 。SQL*Plus 是 Oracle 的 命令 行 工具 ， 在 SQL*Plus 中 不 仅 能 


执行 SQL 命令 ， 还 可 以 执行 SQL*Plus 自 己 的 命令 ，spool 就 是 其 中 之 
一 。 通过 spool 命 令 可 以 将 select 查 询 的 结果 保存 到 文件 中 。 下 面 是 一 个 
spool 导 出 文件 的 例子 。 


set echo off; 

set heading off; 
set line 1000; 
set pagesize 0; 
set numwidth 12; 
set termout off; 
set trimout on; 
set trimspool on; 
set feedback off; 
set timing off; 


spool result.lst 
select * from mytable; 
spool off 


将 上 面 的 语句 保存 成 文件 a.sql， 再 建立 一 个 a.sh 脚 本 调用 这 个 SQL 
脚本 文件 。 


#!/bin/bash 

export NLS LANG-american america.AL32UTF8 
sqlplus useri/passwordi << ! 

start a.sql 

exit; 

I 


执行 a.sh， 就 生成 了 一 个 名 为 result.lst 的 文本 文件 ， 内 容 就 是 查询 
语句 的 结果 ， 以 默认 的 空格 作为 列 之 间 的 分 隔 符 。a.sql 中 的 多 个 set 命 
令 设 置 SQL*Plus 系 统 变 量 ， 用 于 控制 输出 文件 的 格式 。 具 体 含义 可 查 
阅 Oracle 相 天 文档 ， 这 里 不 再 过 多 说 明 。 使 用 spool 需 要 注意 的 一 个 地 
方 是 字符 集 问 题 ， 如 果 客 户 端 设置 不 当 ， 导 出 的 中 文 可 能 出 现 乱 码 。 
使 用 如 下 语句 查询 数据 库 字 符 集 : 


select 


property value from 
database properties where 
property name like 


'NLS_CHAR%'; 


比如 查询 结果 是 AL32UTF8， 那 么 在 进入 sqlplus 之 前 要 设置 : 


export NLS LANG-american america.AL32UTF8 


这 种 抽取 技术 的 好 处 在 于 能 够 抽取 任意 SQL 查询 语句 的 输出 ， 并 
且 只 要 写 SQL 查 询 语句 就 行 了 ， 不 需要 任何 编程 工作 。 但 它 的 缺点 也 
很 明显 ， 如 果 表 的 数据 量 很 大 ， 导 出 过 程 将 慢 到 无 法 容忍 的 程度 。 此 
时 就 得 采用 其 他 的 数据 导出 方式 ， 比 如 使 用 Oracle 的 UTL_FILE 系 统 
包 ， 束 可 以 实现 快速 寻 出 ， 当 数据 量 巨 大 并 要 求 在 一 个 较 短 的 时 间 内 
导出 数据 时 ， 推 荐 使 用 这 种 方案 。 下 面 看 一 个 实际 的 例子 。 


有 个 需求 要 从 Oracle 表 里 导出 数据 ， 存 成 CSV 文 本 文件 。 数 据 量 
有 4 亿 多 行 、25GB。 最 普通 的 解决 方案 是 在 SQL*PLUS 使 用 spool。 尽 
管 该 方案 在 某 些 情况 下 可 行 ， 但 它 的 速度 太 慢 ， 输 出 大 约 每 秒 1MB 字 
节 ， 全 部 导出 需要 7 个 多 小 时 ， 这 是 不 可 接受 的 。 解 决 这 个 问题 的 总 体 
思路 是 : 自 定 义 一 个 函数 ， 调 用 UTL_FILE 包 输出 数据 ， 并 且 使 用 
PIPELINE 函 数 并 行 输出 。 使 用 这 种 方案 的 好 处 是 : 


。 它 是 很 简单 的 SQL， 无 须 大 量 的 SQL*PLUS 命 令 ， 不 用 指定 行 
尺寸 或 ON/OFF 切 换 。 
。 因为 它 是 SQL， 所 以 可 以 从 几乎 任何 地 方 执 行 它 ， 甚 至 可 以 插 
到 PL/SQL 里 。 
。 最 重要 的 一 点 ， 它 执行 很 快 ， 如 果 使 用 并 行 ， 可 以 到 达 很 高 的 
速度 。 


以 下 是 实现 代码 ，DATA_UNLOAD 是 一 个 自 定义 函数 ， 函 数 的 结 
尾 加 一 个 pipelined 关 键 字 ， 说 明 这 是 一 个 管道 图 数 。 该 函数 的 返回 参 
数 类 型 为 集合 ， 这 是 为 了 使 其 能 作为 表 函 数 使 用 。 表 函数 在 from 子 句 
中 以 table(dump_ntb 调 用 的 ，dump_ntt 就 是 一 个 集合 类 型 的 参数 。 
PARALLEL _ ENABLE 使 得 管道 图 数 可 以 多 进程 同时 执行 。 并 行 执行 还 
有 一 个 好 处 ， 就 是 将 数据 插入 方式 从 常规 路 径 转 换 为 直接 路 径 。 直 接 
路 径 可 以 大 量 减 少 redo 日 志 的 生成 量 。UTL_FILE 包 将 结果 行 数据 输出 
到 指定 文件 中 。 


测试 结果 是 ，411079803 行 、25GB 数 据 导 出 成 文本 文件 ， 用 时 7 分 
56 秒 ， 导 出 速度 比 spoo] 方 法 提高 近 60 倍 。 需 要 强调 的 一 点 是 ， 只 要 数 
据 源 是 9i 及 其 以 后 版 本 的 Oracle 数 据 库 ， 此 PL/SQL 代 码 普 遍 适 用 。 


如 果 数 据 产 是 MySQL 数 据 库 ， 可 以 使 用 select ... into outfile 语 句 实 
现 数据 导出 功能 。 例 如 下 面 的 语句 将 t1 表 的 数据 导出 到 /tmp/t1.txt 文 件 
中 ， 字 段 以 逗号 分 隔 。 


select * into 
outfile '/tmp/ti.txt' fields terminated by 
' from 


t1; 


如 果 和 希望 导出 不 这 任何 查询 条 件 的 整个 表 的 数据 ， 甚 至 导出 整个 
数据 库 的 数据 ， 可 以 有 更 简便 的 方法 。 例 如 使 用 mysqldump 命 令 行 工 
具 ， 可 以 一 次 性 导出 多 个 表 、 多 个 库 或 所 有 库 的 数据 。 


mysqldump -uuser1 -ppasswordi test tree -t -T d:\\ --fields- 
terminated-by=, 


在 上 面 的 mysqldump 命 令 中 ，test 是 导出 的 数据 库 ，tree 是 导出 的 
数据 表 ，-t 参 数 表示 不 导出 create 信 息 ，-TI 人 参数 指 定 导出 文件 的 位 置 ，- 
-fields-terminated-by=, 表 示 以 逗号 作为 字段 分 隔 符 。 上 面 命令 执行 后 ， 
在 DD 盘 根 目录 下 会 生成 名 为 tree.txt 的 文件 ， 文 件 内 容 就 是 表 tree 的 全 部 
数据 。 


前 面 演示 了 一 个 Oracle 并 行 执行 的 实例 ， 可 以 大 幅 提 高 查询 性 
能 。 但 它 利 用 的 是 Oracle 数 据 库 本 身 提供 的 功能 特性 ， 换 成 别 的 数据 
库 就 无 法 执行 了 。 有 没有 一 种 比较 通用 的 并 行 执行 多 个 导出 过 程 的 方 
Ale? 每 种 数据 库 都 提供 命令 行 接口 执行 SQL 语句 ， 因 此 最 容易 想到 


的 就 是 通过 初始 化 多 个 并 发 的 会 话 并 行 执行 ， 每 个 会 话 运行 一 个 单独 
的 查询 ， 用 来 抽取 不 同 的 数据 部 分 。 

还 以 Oracle 为 例 ， 假 设 要 从 订单 表 抽 取 数 据 ， 订 单 表 已 经 是 按 月 
做 了 范围 分 区 ， 分 区 名 称 是 orders_jan2008、orders_feb2008 等 。 要 从 订 
单 表 抽取 一 年 的 数据 ， 可 以 初始 化 12 个 并 发 的 SQL*Plus 会 话 ， 每 个 抽 
取 一 个 分 区 。 每 个 会 话 执行 的 SQL 脚本 应 该 类 似 : 


spool order jan.dat 
select * from 


orders partition 


(orders jan2008); 
spool off 


这 12 个 SQL*Plus 进 程 将 并 行 导 出 数据 到 12 个 文件 。 如 果 需 要 ， 还 
可 以 在 抽取 后 使 用 操作 系统 命令 将 12 个 文件 合并 起 来 (如 Linux 的 cat 
命令 ) 。 

即使 订单 表 没 有 分 区 ， 仍然 可 以 基于 逻辑 条 件 执行 并 行 抽取 。 人 远 
辑 方法 是 基于 列 值 的 逻辑 范围 ， 例 如 : 


select ... where order date 
between to date('2008-01-01','yyyy-mm-dd') and to_date('2008- 
01-31','yyyy-mm-dd'); 
回想 一 下 刚才 执行 ash 脚 本 导出 了 mytable 表 的 数据 ， 现 在 对 a.sh 稍 
加 修改 ， 在 其 中 多 次 调用 a.sql， 并 且 使 这 些 调用 并 行 执行 ， 从 命令 行 
接收 并 行 度 参 数 。 


#!/bin/bash 
export NLS_LANG=american_america.AL32UTF8 
LOCO L = 0". € Gl aam ))) 


do 


sqlplus useri/password1 << ! 
start a.sql 
exit; 


cat ./result.lst »» aa.txt 


脚本 中 使 用 了 & 符 号 ， 使 得 人 内 的 命令 在 后 台 并 行 执行 ， 并 将 每 
次 生成 的 文本 文件 result.lst 合 并 到 一 个 新 的 文件 aa.txt 中 。 等 到 循环 里 
面 的 命令 都 结束 之 后 才 执 行 接 下 来 的 date 命 令 。 我 们 用 这 个 示例 说 明 
并 行 执行 多 个 SQL 脚本 文件 (这 里 多 次 执行 同一 个 文件 a.sql， 当 然 实 
际 中 应 该 是 多 个 不 同 的 SQL 文 件 ) 。mytable 表 有 57606 行 记录 ， 如 果 
执行 两 次 ， 文 件 中 应 该 有 115212 行 记录 。 


[oracle@data-01 ~]$ ./a.sh 2 


[oracleQdata-01 ~]$ cat result.lst | wc -1 
57606 


[oracleQdata-01 ~]$ cat aa.txt | wc -1 
115212 


换 做 MySQL 数 据 库 ， 整 体 思 路 是 一 样 的 ， 只 要 把 sqlplus 换 成 
mysql 客 户 端 ， 再 针对 MySQL 的 语法 做 相应 的 修改 即 可 。 


并 行 抽取 一 个 复杂 的 SQL 查 询 有 时 是 可 行 的 ， 尽 管 将 一 个 单一 
询 分 成 多 个 部 分 可 能 是 一 个 挑战 。 在 并 行 模式 下 ， 协 调 多 个 独立 的 进 
程 ， 保 证 一 个 整体 一 致 的 视图 可 能 是 非常 困难 的 ， 而 且 所 有 并 行 技 术 
都 会 使 用 更 多 的 CPU 和 IO 资源 ， 因 此 在 执行 任何 并 行 抽取 技术 前 需 
评估 对 系统 性 能 的 影响 。 我 们 应 该 控制 并 发 进程 的 个 数 ， 不 然 会 影响 
系统 其 他 进程 的 运行 。 


74 “分 布 式 查 询 


源 系 统 可 能 会 使 用 了 多 种 关系 数据 库 系统 ， 它 们 往往 是 独立 的 ， 
并 处 于 远程 系统 中 ， 这 种 情况 很 常见 。 如 果 能 够 从 一 个 单一 数据 库 访 
问 其 他 的 数据 库 系 统 ， 比 如 从 Oracle 访 问 SQL Server 和 MySQL， 或 者 
从 SQL Server 访 问 Oracle 和 MySQL ， 无 疑 会 最 小 化 编程 需要 ， 给 数据 
抽取 的 开发 市 来 极 大 的 便利 。 

Oracle 和 SQL Server 都 提供 分 布 式 查询 功能 。Oracle 通 过 透明 网 关 
和 数据 库 链 (Database Link) 实现 分 布 式 查询 。 SQL Server 则 使 用 链 
接 服务 器 。 它 们 可 以 建立 不 同 的 数据 库 系统 之 间 的 联系 ， 并 可 作为 数 
据 集成 的 重要 工具 之 一 。 现 分 别 以 Oracle 和 SQL Server 为 例 进行 说 明 。 


1. 建立 Oracle 到 MySQL 的 连接 


需求 是 从 Oracle 10.2.0.1 访 问 MySQL 5.1.34， 两 种 数据 库 系统 都 安 
装 在 Linux 系 统 上 ， 我 们 要 在 Oracle 所 在 主机 上 做 一 些 配置 。 


(1) 安装 UNIX ODBC 驱 动 、MySQL ODBC 和 Oracle 透 明 网 关 三 
个 软件 包 


用 root 用 户 安装 unixODBC: 


rpm -Uvh unixODBC-2.2.12-1.el4s1.1.i386.rpm 


用 root 用 户 安 装 MySQL ODBC: 


rpm -Uvh mysql-connector -odbc-5.1.5-0.1386.rpm 


FB oracle FH P Zz3& Oracle Gateway， 安 装 方法 和 oracle db 软件 一 
样 ， 把 gateway 和 db 装 一 起 了 ， 共 用 一 个 OracleHOME.: 


unzip 10201 gateways linux32.zip 
cd gateways 
./runInstaller 


(2) 配置 ODBC 数 据 源 
用 root 用 户 配置 ODBC 数 据 源 : 


vi /etc/odbc.ini 


编辑 该 文件 ， 根 据 实际 情况 填写 : 


[DSName] 
Driver = /usr/lib/libmyodbc5.so 
Description = MySQL 
Server SKK OOK TOOL DO 
Port = 3306 
User = root 
UID = root 
Password - mypass 
Database - mysqldbname 
Option = 3 
Socket = 
charset = utf8 
测试 ODBC: 


isql -v DSName root mypass 


用 oracle 用 户 配置 网 关 的 ODBC 数 据 源 : 


vi SORACLE HOME/hs/admin/initDSName.ora 


编辑 该 文件 内 容 如 下 : 


HS FDS CONNECT INFO = DSName 


HS_FDS_TRACE_LEVEL = 0 
HS FDS SHAREABLE NAME = /usr/lib/libmyodbc5.so 


(3) 配置 Oracle 监 听 器 和 客户 端 网 络 服务 名 
编辑 listener.ora 文 件 ， 按 实际 情况 添加 如 下 的 描述 部 分 : 


(SID_DESC = 
(SID_NAME = phpcms ) 
(ORACLE HOME = /usr/u0O1/app/oracle/product/10.2.0/db 1) 
(PROGRAM - hsodbc) 


编辑 tnsnames.ora， 按 实际 情况 添加 如 下 部 分 : 


DSName - 
(DESCRIPTION - 
(ADDRESS LIST - 
(ADDRESS = (PROTOCOL = TCP) (HOST = 192.168.0.125) (PORT = 1521)) 


) 
(CONNECT DATA = (SERVICE NAME = DSName)) 
(HS = OK) 


重启 监听 器 并 测试 : 


lsnrctl reload 
lsnrctl service 
tnsping DSName 


(4) 建立 数据 库 链 


create public 


database link linkname 
connect to 


"root" 
identified by 


<pwd> 
using 


'dsname' ; 


测试 ， 现 在 就 可 以 执行 Oracle 和 MySQL 的 分 布 式 查询 了 : 


select 
"name" from 


t1Qlinkname; 


Oracle 网 关 的 HSODBC 驱 动 程序 对 MySQL 的 支持 还 不 是 很 完善 ， 
如 字符 集 问 题 ， 最 好 将 Oracle 和 MySQL 的 字符 集 都 设置 成 utf8， 否 则 
查询 中 文 会 显示 乱码 ， 再 有 查询 MySQL 表 中 text 数 据 类 型 的 字段 会 报 


eit 
THo 


select "textcol" from tiQlinkname; 


ORA-28500: 连接 ORACLE 到 非 Oracle 系统 时 返回 此 信息 : 

[Generic Connectivity Using ODBC][MySQL][ODBC 5.1 Driver] 
[mysqld-5.1.34-community]You have an 

error in your SQL syntax; check the manual that corresponds 
to your MySQL server version for 

the right syntax to use near '"ti1" WHERE "id"-1' at line 1 
(SQL State: 37000; SQL Code: 1064) 


ORA-02063: 紧 接 着 2 lines (起 自 DSName) 
2。 建 立 SQL Server 到 Oracle 的 连接 


通过 链接 服务 器 建立 一 个 从 SQL Server 2005 到 Oracle 11G 的 连 
接 ， 并 从 Oracle 数 据 库 查询 数据 。 在 此 SQL Server 2005 为 目标 数据 库 
服务 器 ， 而 Oracle 为 产 数 据 库 服务 器 。 


(1) 在 SQL Server 所 在 的 服务 器 安装 Oracle 客 户 端 软件 。 
(2) 配置 msnames.ora 文 件 ， 示 例如 下 。 


MYDB = 
(DESCRIPTION = 
(ADDRESS_LIST = 
(ADDRESS = (PROTOCOL = TCP)(HOST = 192.168.0.125) (PORT 
= 1521)) 


) 
(CONNECT_DATA = 
(SERVICE NAME = mydb) 


) 
) 
(3) M SQL Server 上 运行 一 个 系统 过 程 软 件 包 
sp_addlinkedserver， 建 立 链接 服务 器 。 


exec 


master.dbo.sp addlinkedserver Qserver 
@srvproduct = N'oracle', @provider 
@datasrc = N'mydb' 


N'linkoracle', 
N'OraOLEDB.Oracle', 


其 中 ， 链 接 服务 器 名 为 jnkoracle ，OraOLEDB.Oracle 为 Oracle 的 
OLE DB，mydb 为 msnames.ora 文 件 中 定义 的 服务 别名 。 


(4) 运行 一 个 系统 过 程 软件 包 sp_addlinkedsrvlogin 建 立 登 录 。 


exec 
master.dbo.sp addlinkedsrvlogin @rmtsrvname = N'linkoracle', 
Quseself - N'False', Qlocallogin - N'sa', Qrmtuser - 


N'useri', 
@rmtpassword = 'passwordi' 


其 中 ，user1、password1 分 别 为 Oracle 数 据 库 的 用 户 名 和 口令 。 
(5) 在 建立 连接 服务 器 之 后 ， 可 以 用 两 种 SQL 查询 语句 进行 分 布 


-- 第 一 种 ，select * from 链接 服务 器 . .用 户 名 . 表 名 ， 语 法 简单 ， 性 能 较 差 


select * from 


linkoracle..USER1.TAB; 


-- 第 二 种 ，opendquery 函 数 
Select * from 


openquery(linkoracle, 'select * from tab'); 


为 方便 对 链接 服务 器 的 访问 ， 可 以 在 SQL Server FR £2 xz UW F ERI 


create function fni (Qtable name varchar(30)) 

returns table 

as return (select * from linkoracle..USER1.TAB where tname = 
Qtable name) 


然后 可 以 直接 从 SQL Serveri FA Zee BX LAREN Ib SB EME : 


select * from fni ('T1'); 


7.5 “使 用 Sqoop 抽 取 数 据 


有 了 前 面 的 讨论 和 实验 ， 我 们 现在 已 经 可 以 处 理 从 源 系统 获取 数 
据 的 各 种 情况 。 回 想 上 一 章 建 立 的 销售 订单 示例 ， 源 系统 的 MySQL 数 
据 库 中 已 经 添加 好 测试 数据 ，Hive 中 建立 了 rds 数 据 库 作 为 过 渡 区 ，dw 
库存 储 维度 表 和 事实 表 。 这 里 我 们 将 使 用 一 种 新 的 工具 将 MySQL 数 据 
抽取 到 Hive 的 rds 库 中 ， 它 就 是 Sqoop。 


7.5.1 ”Sqoop 简 介 


Sqoop 是 一 个 在 Hadoop 与 结构 化 数据 存储 (如 关系 数据 库 ) 之 间 
高 效 传输 大 批量 数据 的 工具 。 它 在 2012 年 3 月 被 成 功 孵 化 ， 现 在 已 是 
Apache 的 顶级 项 目 。Sqoop 有 Sqoop1 和 Sqoop2 两 代 ，Sqoop1 最 后 的 稳 


定 版 本 是 1.4.6，Sqoop2 最 后 版 本 是 1.99.6。 需 要 注意 的 是 ，1.99.6 与 
1.4.6 并 不 兼容 ， 而 且 截 至 目前 为 止 ，1.99.6 并 不 完善 ， 不 推荐 在 生产 环 
境 中 部 署 。 

Sqoop1 和 Sqoop2 的 架构 分 别 如 图 7-1、 图 7-2 所 示 。 
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第 一 代 Sqoop 的 设计 目标 很 简单 : 


。 在 企业 级 数据 仓库 、 关 系数 据 库 、 文 档 系统 和 HDFS、HBase 或 
Hive 之 间 导 入 导出 数据 。 

。 基于 客户 端的 模型 。 

。 连接 器 使 用 厂商 提供 的 驱动 。 

。 没有 集中 的 元 数据 存储 。 

。 只 有 Map 任 务 ， 没 有 Reduce 任 务 ， 数 据 传输 和 转化 都 由 Mappers 
提供 。 

。 可 以 使 用 Oozie 调 度 和 管理 Sqoop 作 业 。 


Sdqoop1 是 用 Java 开 发 的 ， 完 全 客户 端 驱动 ， 严 重 依赖 于 JDBC， 可 
以 使 用 简单 的 命令 行 命令 导入 导出 数据 。 例 如 : 


# 把 MySQL 中 testdb ,PERSON 表 的 数据 导入 HDFS 
sqoop import --connect jdbc:mysql://localhost/testdb --table 


PERSON --username test -- 
password **** 


上 面 这 条 命令 形成 一 系列 任务 : 


。 生成 MySQL 的 SQL 代码 。 
。 执行 MySQL 的 SQL 代码 。 
。 生成 Map 作 业 。 

。 执行 Map 作 业 。 

。 数据 传输 到 HDFS。 


# 将 HDFS 上 /user/localadmin/CLIENTS 目 录 下 的 文件 导出 到 MySQL 的 


testdb.CLIENTS_INTG 表 中 

sqoop export --connect jdbc:mysql://localhost/testdb --table 
CLIENTS INTG --username test -- 

password **** --export-dir /user/localadmin/CLIENTS 


上 面 这 条 命令 形成 一 系列 任务 : 


。 生成 Map 作 业 。 

。 执行 Map 作 业 。 

。 从 HDFS 的 /user/localadmin/CLIENTS 路 径 传输 数据 。 

。 生成 MySQL 的 SQL 代 码 。 

。 向 MySQL 的 testdb.CLIENTS_INTG 表 插入 数据 。 

Sqoop1l1 有 许多 简单 易 用 的 特性 ， 如 可 以 在 命令 行 指定 直接 导入 至 
Hive 或 HDFS。 连 接 器 可 以 连接 大 部 分 流行 的 数据 库 : Oracle, 
SQLServer, MySQL, Teradata, PostgreSQL 等 。 Sqgoop1 的 主要 问题 包 
括 : 繁多 的 命令 行 参数 ;) 不 安全 的 连接 方式 ， 如 直接 在 命令 行 写 密码 
等 ; 没有 元 数据 存储 ， 只 能 本 地 配置 和 管理 ， 使 复 用 受到 限制 。 

Sqoop2 体 系 结构 比 Sqoop1 复 杂 得 多 ， 它 被 设计 用 来 解决 Sqoop1 的 
问题 ， 主 要 体现 在 易 用 性 、 可 扩展 性 和 安全 性 三 个 方面 : 


1。 易 用 性 


Sdqoop1 需 要 客户 端的 安装 和 配置 ， 而 Sqoop2 是 在 服务 器 端 安装 和 
配置 。 这 意味 着 连接 器 只 在 一 个 地 方 统一 配置 ， 由 管理 员 角 色 管 理 ， 
操作 员 角 色 使 用 。 类 似 地 ， 只 需要 在 一 台 服 务 器 上 配置 JDBC 驱 动 和 数 
据 库 连接 。 Sqoop2 还 有 一 个 基于 Web 的 服务 : 前 端 是 命令 行 接口 

(CLI) 和 浏览 器 ， 后 端 是 一 个 元 数据 知识 库 。 用 户 可 以 通过 交互 式 
的 Web 接 口 进行 导入 导出 ， 避 人 免 了 错误 选项 和 繁 见 步 台 。Sqoop2 还 在 
服务 器 端 整合 了 Hive 和 HBase。 Oozie 通 过 REST API 管 理 Sqoop 任 务 ， 
这 样 当 安装 一 个 新 的 Sqoop 连 接 器 后 ， 无 须 在 Oozie 中 安装 它 。 


2。 可 扩展 性 


在 Sqoop2 中 ， 连 接 器 不 再 受 限 于 JDBC 的 SQL 语法 ， 如 不 必 指 定 
database、table 等 ， 甚 至 可 以 定义 自己 使 用 的 SQL 方言 。 例 如 ， 
Couchbase 不 需要 指定 表 名 ， 只 需 在 填充 或 趣 载 操作 时 重 载 它 。 通 用 的 
功能 将 从 连接 器 中 抽取 出 来 ， 使 之 只 负责 数据 传输 。 在 Reduce 阶 段 实 
现 通 用 功能 ， 确 保 连 接 器 可 以 从 将 来 的 功能 性 开发 中 受益 。 连 接 器 不 
再 需要 提供 与 其 他 系统 整合 等 下 游 功 能 ， 因 此 ， 连 接 器 的 开发 者 不 再 
需要 了 解 所 有 Sqoop 支 持 的 特性 。 


3. 安全 性 


Sqoop1 用 户 是 通过 执行 sSqoop 命 令 运行 Sqoop。 Sqoop 作 业 的 安全 
性 主要 由 是 否 对 执行 Sqoop 的 用 户 信 任 所 决定 。Sqoop2 将 作为 基于 应 
用 的 服务 ， 通 过 按 不 同 角 色 连 接 对 象 ， 支 持 对 外 部 系统 的 安全 访问 。 
为 了 进一步 安全 ，Sqoop2 不 再 允许 生成 代码 、 请 求 直接 访问 Hive 或 
HBase， 也 不 对 运行 的 作业 开放 访问 所 有 客户 端的 权限 。Sqoop2 将 连 
接 作为 一 级 对 象 ， 包 含 证 书 的 连接 一 旦 生成 ， 可 以 被 不 同 的 导入 导出 


作业 多 次 使 用 。 连 接 由 管理 员 生成 ， 祝 操作 员 使 用 ， 因 此 避免 了 最 终 
用 户 的 权限 泛滥 。 此 外 ， 连 接 可 以 被 限制 只 能 进行 某 些 基本 操作 ， 如 
导入 导出 ， 还 可 通过 限制 同一 时 间 打 开 连 接 的 总 数 和 一 个 禁止 连接 的 
选项 来 管理 资源 。 


7.5.2 CDH 5.7.0 中 的 Sqoop 


CDH 5.7.0 中 有 既 包 含 Sqoop1 又 包含 Sgoop2，Sqoop1 的 版 本 是 1.4.6， 
Sqoop2 的 版 本 是 1.99.5。 当 前 的 Sqoop2 还 缺少 Sqoop1 的 某 些 特性 ， 因 
此 Cloudera 的 建议 是 ， 只 有 当 Sqoop2 完 全 满足 需要 的 特性 时 才 使 用 
它 ， 否 则 继续 使 用 Sqoop1。CDH 5.7.0 中 的 Sgoopl 和 Sqgoop2 的 特性 区 别 
如 表 7-2 所 示 。 


表 7-2 ”Sqoop1 与 Sqoop2 特 性 比较 


所 有 主要 | 支持 不 支持 

RDBMS 的 连接 变通 方案 : 使 用 通用 的 JDBC 连接 器 ， 它 已 经 在 
器 Microsoft SQL Server, PostgreSQL. MySQL 和 Oracle 数 
据 库 上 测试 过 。 这 个 连接 器 应 该 可 以 在 任何 JDBC 兼容 
的 数据 库 上 使 用 ， 但 性 能 比 不 上 Sqoopl 的 专用 连接 器 


Kerberos 整合 ES 不 支持 


数据 从 RDBMS 年 不 支持 
TEIA Hive S 变通 方案 ， 用 下 面 两 步 方法 。 
ES 1. 数据 从 RDBMS 导入 HDFS 


2. 使 用 适当 的 工具 或 命令 (如 Hive ff] LOAD DATA i& 

J) 手工 把 数据 导入 Hive 或 HBase 

数据 从 Hive 或 | 不 支持 不 支持 

HBase 传输 到 | 变通 方案 用 下 面 两 步 方 | 变通 方案 如 Sqoop1 

RDBMS 法 。 

1. 从 Hive 或 HBase 抽出 数 

据 到 HDFS (文本 文件 或 

Avro 文件 ) 

2. 使 用 Sqoop 将 上 一 步 的 
输出 导入 RDBMS 


7.5.3 ”使 用 Sqoop 抽 取 数 据 


在 销售 订单 示例 中 使 用 Sqoop1 进 行 数 据 抽取 。 表 7-3 汇 总 了 示例 中 
维度 表 和 事实 表 用 到 的 源 数 据 表 及 其 抽取 模式 。 


表 7-3 ”销售 订单 抽取 模式 


源 数 据 表 rds 库 中 的 表 dw 库 中 的 表 抽取 模式 
customer customer dim 整体 、 拉 取 
product product product_dim 整体 、 拉 取 
| sales order sales order order dim, sales order fact | AE IN THER CDC、 拉 取 


1. MAFA 


对 于 customer、product 这 两 个 表 采 用 整体 拉 取 的 方式 抽取 数据 。 
ETL 通 常 是 按 一 个 固定 的 时 间 间 隔 ， 周 期 性 定时 执行 的 ， 因 此 对 于 整 
体 拉 取 的 方式 而 言 ， 每 次 导入 的 数据 需要 覆盖 上 次 导入 的 数据 。 
Sqoop 中 提供 了 hive-overwrite 参 数 实现 覆盖 导入 。hive-overwrite 的 另 一 
MER etek SSB SERENE. Prise SiR FN ERATE 
意 多 次 所 产生 的 影响 均 与 一 次 执行 的 影响 相同 。 这 样 就 能 在 导入 失败 
或 修复 bug 后 可 以 再 次 执行 该 操作 ， 而 不 用 担心 重复 执行 会 对 系统 造成 
数据 混乱 。 上 有 具体 Sqoop 命 令 如 下 ， 其 中 hive-import 参 数 表示 向 hive 表 导 
入 ，hive-table 参 数 指 定 目标 hive 库 表 。 


sqoop import --connect jdbc:mysql://cdh1:3306/source? 

useSSL-false --username root --password 

mypassword --table customer --hive-import --hive-table 
rds.customer --hive-overwrite 

sqoop import --connect jdbc:mysql://cdh1:3306/source? 

useSSL-false --username root --password 

mypassword --table product --hive-import --hive-table 

rds.product --hive-overwrite 


2。 增 量 导入 


Sqoop 提 供 增 量 导 入 模式 ， 用 于 只 导入 比 已 经 导入 行 新 的 数据 
行 。 表 7-4 所 示 参 数 用 来 控制 增 量 导入 。 


表 7-4 Sqoop 增 量 导 入 模式 
| 参数 描述 
--check-column 在 确定 应 该 导入 哪些 行 时 指定 被 检查 的 列 。 列 不 能 是 
CHAR/NCHAR/VARCHAR/VARNCHAR/LONGVARCHAR/LONGNVARCHAR 
数据 类 型 
--incremental 指定 Sqoop 怎样 确定 哪些 行 是 新 行 。 有 效 值 是 append 和 lastmodified 
--last-value 指定 已 经 导入 数据 的 被 检查 列 的 最 大 值 


Sqoop 支 持 两 种 类 型 的 增 量 导入 : append 和 1lastmodified。 可 以 使 
用 --incremental 人 参数 指定 增 量 导入 的 类 型 。 


当 被 导入 表 的 新 行 具有 持续 递增 的 行 id 值 时 ， 应 该 使 用 append 模 
式 。 指 定 行 id 为 --check-column 的 列 。Sqoop 导 入 那些 被 检查 列 的 值 比 -- 
last-value 给 出 的 值 大 的 数据 行 。 


Sqoop 支 持 的 另 一 个 表 修 改 策略 叫做 lastmodified 模 式 。 当 源 表 的 
数据 行 可 能 被 修改 ， 并 且 每 次 修改 都 会 更 新 一 个 last-modified 列 为 当前 
时 间 惟 时， 应 该 使 用 lastmodified 模 式 。 那 些 被 检查 列 的 时 间 戳 比 --last- 
value 给 出 的 时 间 戳 新 的 数据 行 被 导入 。 


增 量 导 入 命令 执行 后 ， 在 控制 台 输出 的 最 后 部 分 ， 会 打印 出 后 续 
导入 需要 使 用 的 last-value。 当 周期 性 执行 导入 时 ， 应 该 用 这 种 方式 指 
定 --last-value 参 数 的 值 ， 以 确保 只 导入 新 的 或 修改 过 的 数据 。 可 以 通 
过 一 个 增 量 导入 的 保存 作业 自动 执行 这 个 过 程 ， 这 是 适合 重复 执行 增 
量 导入 的 方式 。 

有 了 对 Sqoop 增 量 导 入 的 基本 了 解 ， 下 面 看 一 下 如 何在 本 示例 中 
使 用 它 抽取 数据 。 对 于 sales_order 这 个 表 采 用 基于 时 间 改 的 CDC 拉 取 
方式 抽取 数据 。 这 里 假设 源 系统 中 销售 订单 记录 一 旦 入 库 就 不 再 改 
变 , 或 者 可 以 忽略 改变 ， 也 就 是 说 销售 订单 是 一 个 随时 间 变 化 单 向 追 


加 数据 的 表 。sales_order 表 中 有 两 个 关于 时 间 的 字段 ，order_date 表 示 
订单 时 间 ，entry_date 表 示 订 单数 据 实际 插入 表 里 的 时 间 ， 在 后 面 11.5 
节 讨 论 * 迟 到 的 事实 ”时 就 会 看 到 两 个 时 间 可 能 不 同 。 那 么 用 哪个 字段 
作为 CDC 的 时 间 戳 呢 ? 设想 这 样 的 情况 ， 一 个 销售 订单 的 订单 时 间 是 
2015 年 1 月 1 日 ， 实 际 插入 表 里 的 时 间 是 2015 年 1 月 2 日 ，ETL 每 天 0 点 执 
行 ， 抽 取 前 一 天 的 数据 。 如 果 按 order_date 抽 取 数 据 ， 条 件 为 where 
order date >= '2015-01-02' AND order date < '2015-01-03'， 则 2015 年 1 月 
3 日 0 点 执行 的 ETL 不 会 捕获 到 这 个 新 增 的 订单 数据 。 所 以 应 该 以 
entry. datefF7JCDCBSHBY [8] £X. 


下 面 测 试 一 下 增 量 导入 : 
(1) 建立 sqoop 增 量 导入 作业 。 


sqoop job --create myjob 1 \ 
-- \ 
import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order_number, customer_number, product_code, 
order_date, entry_date, order_amount" 


--where "entry_date < current_date()" \ 
--hive-import \ 

--hive-table rds.sales_order \ 
--incremental append \ 

--check-column entry_date \ 
--last-value '1900-01-01' 


说 明 : 上 面 的 语句 建立 一 个 名 为 myjob_1 的 Sqoop 作 业 。 使 用 -- 
where 参 数 是 为 了 只 导入 前 一 天 的 数据 。 例 如 ， 在 2 点 执行 此 作业 ， 则 
不 会 导入 0 点 到 2 点 这 两 个 小 时 产生 的 销售 订单 数据 。 


(2) 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 


[root@cdh2~]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:03:29 INFO sqoop.Sqoop: Running Sqoop version: 
1.4.6-cdh5.7.0 

incremental.last.value - 1900-01-01 


可 以 看 到 ，last-value 的 值 为 初始 的 '1900-01-01'。 
(3) 首次 执行 作业 。 


sqoop job --exec myjob 1 


Wi 


为 last-value 的 值 为 1900-01-01'"， 所 以 这 次 会 导入 全 部 数据 ， 
询 rds.sales_order， 最 后 结果 如 下 所 示 。 


96 | 4 | 1 | 2016-06-27 01:11:38.0 | 2016-06-27 01:11:38.0 


97 | 2 | 1 | 2016-06-27 02:25:04.0 | 2016-06-27 02:25:04.0 


99 | 3 | 2 | 2016-06-28 02:10:23.0 | 2016-06-28 02:10:23.0 


2016-06-30 05:20:47.0 | 2016-06-30 05:20:47.0 


H 
© 
© 
小 
N 


| 
| 
| 
| 98 | 3 | 1 | 2016-06-27 19:25:15.0 | 2016-06-27 19:25:15.0 
| 
| 
| 
| 
| 


100 rows selected (0.191 seconds) 


(4) 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 


[root@cdh2~]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:12:02 INFO sqoop.Sqoop: Running Sqoop version: 
1.4.6-cdh5.7.0 

incremental.last.value - 2016-06-30 05:20:47.0 


可 以 看 到 ，last-value 的 值 为 当前 最 大 值 '2016-06-30 05:20:47'。 
(5) 源 库 增加 两 条 数据 。 


USe 


source; 
set 


Qcustomer number := floor 
(1 * rand() 


2 ©) 
set 


Qproduct code := floor 
(1 * rand() 


* 2); 
set 


Qorder_date := from unixtime(unix timestamp('2016-07-03') + 
rand() 


* 

(unix timestamp('2016-07-04') - unix timestamp('2016-07- 
03'))); 
set 

Qamount :- floor 

(1000 + rand() 

* 9000); 
insert into 

sales order 
values 

(101, @customer_number, @product_code, @order_date, @order_date, @ 
amount); 
set 


@customer_number := floor 


(1 + rand() 


= S) 
set 


Qproduct code := floor 
(1 * rand() 


E2) 
set 


Qorder_date := from unixtime(unix timestamp('2016-07-04') + 
rand() 


* 


(unix timestamp('2016-07-05') - unix timestamp('2016-07- 
04'))); 
set 
Qamount :- floor 
(1000 + rand() 
* 9000); 
insert into 
sales order 
values 
(102, @customer_number, @product_code, @order_date, @order_date, @ 


amount); 
commit 

上 面 的 语句 向 sales_order 插 入 了 两 条 记录 ， 一 条 是 7 月 3 日 的 ， 另 
一 条 是 7 月 4 日 的 。 


(6) 再 次 执行 sqoop 作 业 ， 7 last-value BY f& 73 '2016-06-30 
05:20:47'， 所 以 这 次 只 会 导入 entry_date 比 '2016-06-30 05:20:47 B Zi 
据 。 


sqoop job --exec myjob 1 


(7) 查看 此 时 作业 中 保存 的 last-value， 结 果 如 下 所 示 。 


[root@cdh2~]#sqoop job --show myjob 1 | grep last.value 
16/07/04 09:34:34 INFO sqoop.Sqoop: Running Sqoop version: 
1.4.6-cdh5.7.0 

incremental.last.value - 2016-07-03 22:45:46.0 


可 以 看 到 ，last-value 的 值 已 经 变 为 '2016-07-03 22:45:46' 
(8) 在 hive 的 rds 库 里 查询 ， 前 两 行 记 录 如 下 所 示 。 


select * from rds.sales order order by order number desc; 
| 101 | 3 | 1 | 2016-07-03 22:45:46.0 | 2016-07-03 22:45:46.0 
| 6010 | 
| 100 | 4 | 2 | 2016-06-30 05:20:47.0 | 2016-06-30 05:20:47.0 
| 6893 | 


可 以 看 到 rds.sales_order 表 中 只 新 增 了 一 条 数据 ， 因 为 当前 日 期 是 7 
月 4 日 ， 所 以 7 月 4 日 的 订单 记录 被 作业 中 的 where 人 参数 过 滤 掉 了 。 


(9) 还 原 数据 。 


-- 还 原 MySQL 的 sales_order 表 
use 


source; 
delete from 


sales order where 
order number in 


(101, 102) ; 
alter table 


sales order auto increment-101; 


现在 我 们 已 经 测试 了 用 Sqoop 执 行 数据 抽取 的 过 程 ， 下 一 节 将 把 
sqoop 命 令 放 到 一 个 shell 脚 本 文件 中 ， 并 使 用 Hive 进 行 数据 的 转换 与 装 
载 。 


7.5.4 ”Sqoop 优 化 


当 使 用 Sqoop 在 关系 数据 库 和 HDFS 之 间 传 输 数 据 时 ， 有 多 个 因素 
影响 其 性 能 。 可 以 通过 调整 Sqoop 命 令 行 参 数 或 数据 库 参 数 优化 Sqoop 
的 性 能 。 本 小 节 简 要 描述 这 两 种 优化 方法 。 


1. 调整 Sqoop 命 令 行 参 数 
可 以 调整 下 面 的 Sqoop 参 数 优化 性 能 。 
e batch 


该 参数 的 语法 是 --batch， 指 示 使 用 批 处 理 模式 执行 底层 的 SQL 语 
句 。 在 导出 数据 时 ， 该 参数 能 够 将 相关 的 SQL 语句 组 合 在 一 起 批量 执 
行 。 也 可 以 使 用 有 效 的 API 在 JDBC 接 口中 配置 批 处 理 参 数 。 


e boundary-query 


指定 导入 数据 的 范围 值 。 当 仪 使 用 split-by 参 数 指定 的 分 隔 列 不 是 
最 优 时 ， 可 以 使 用 boundary-query 参 数 指定 任意 返回 两 个 数字 列 的 查 
询 。 它 的 语法 如 下 : -boundary-query select min(id), max(id) from 
<tablename>。 在 配置 boundary-query 参 数 时 ， 查 询 语 句 中 必须 连同 表 
名 一 起 指定 min(id) 和 max(id)。 如 果 没 有 配置 该 参数 ， 默 认 时 Sqoop 使 
用 select min(<split-by>), max(<split-by>) from <tablename> 查询 找 出 分 
隔 列 的 边界 值 。 


e direct 


该 参数 的 语法 是 --direct， 措 示 在 导入 数据 时 使 用 关系 数据 库 上 自 珊 
的 工具 (如 果 存 在 的 话 ) ， 如 MySQL 的 mysqlimport。 这 样 可 以 比 jdbc 
连接 的 方式 更 为 高 效 地 将 数据 导入 到 关系 数据 库 中 。 


。 Dsqoop.export.records.per.statement 


在 导出 数据 时 ， 可 以 将 Dsqoop.export.records.per.statement 人 参数 与 
批 处 理 参 数 结合 在 一 起 使 用 。 该 参数 指示 在 一 条 insert 语 句 插 入 的 行 
数 。 当 指 古 了 这 个 参数 时 ，Sqoop 运 行 下 面 的 插入 语句 : INSERT 
INTO table VALUES (...), (..….),(...)).…; 某 些 情况 下 这 可 以 提升 近 一 倍 的 性 


能 。 
e fetch-size 


导入 数据 时 ， 指 示 每 次 从 数据 库 读 取 的 记录 数 。 使 用 下 面 的 语 
ik: --fetch-size=<n>， 其 中 <n> 表 示 Sqoop 每 次 必须 取 回 的 记录 数 ， 默 
认 值 为 1000。 可 以 基于 读 取 的 数据 量 、 可 用 的 内 存 和 带宽 大 小 适当 增 
加 fetch-size 的 值 。 某 些 情况 下 这 可 以 提升 25% 的 性 能 。 


e num-mappers 

该 参数 的 语法 为 -num-mappers «number of map tasks> ， 用 于 指定 
并 行 数据 导入 的 map 任 务 数 ， 默 认 值 为 4。 应 该 将 该 值 设置 成 低 于 数据 
库 所 支持 的 最 大 连接 数 。 


e split-by 


该 参数 的 语法 为 --split-by «column name>， 指 定 用 于 Sqoop 分 隔 工 
作 单 元 的 列 名 ， 不 能 与 --autoreset-to-one-mapper 选 项 一 起 使 用 。 如 果 不 
指定 列 名 ，Sqoop 基 于 主键 列 分 隔 工 作 单 元 。 


2. 调整 数据 库 
为 了 优化 关系 数据 库 的 性 能 ， 可 执行 下 面 的 任务 : 


为 精确 调整 查询 ， 分 析 数 据 库 统计 信息 。 
将 不 同 的 表 空 间 存储 到 不 同 的 物理 人 硬盘 。 
预 判 数据 库 的 增长 。 

使 用 explain plan 类 似 的 语句 调整 查询 语句 。 
导入 导出 数据 时 禁用 外 键 约束 。 

导入 数据 前 删除 索引 ， 导 入 完成 后 再 重建 。 
优化 JDBC URL 连 接 参 数 。 

确定 使 用 最 好 的 连接 接口 。 


7.6 “小 结 


(1) 建立 一 个 有 效 的 逻辑 数据 映射 是 实现 ETL 系 统 的 基础 。 

(2) 从 源 抽取 数据 导入 数据 仓库 有 两 种 方式 ， 可 以 从 源 把 数据 抓 
取出 来 (D ， 也 可 以 请 求 源 把 数据 发 送 GE) 到 数据 仓库 。 

(3) 时 间 戳 、 触 发 器 、 快 照 表 、 日 志 是 常用 的 四 种 变化 数据 捕获 
方法 。 

(4) 以 文本 文件 的 形式 交换 数据 是 一 种 可 行 的 通用 方法 。 有 多 种 
将 数据 导出 成 文本 文件 的 方式 ， 其 性 能 差别 很 大 。 


(5) 分 布 式 查 询 可 以 建立 不 同 的 数据 库 系 统 之 间 的 联系 ， 并 可 作 
为 数据 集成 的 重要 工具 之 一 。 

(6) Sqoop 是 一 个 在 Hadoop 与 结构 化 数据 存储 (如 关系 数据 库 ) 
之 间 高 效 传输 大 批量 数据 的 工具 ， 支 持 全 量 和 增 量 数 据 抽取 。 


第 8 章 
4 数据 转换 与 装载 w 


本 章 重 点 是 针对 销售 订单 示例 编写 并 测试 HiveQL 转 换 脚 本 。 在 此 
之 前 ， 我 们 先 简 要 介绍 一 下 数据 清洗 的 概念 和 常见 的 数据 清洗 工作 。 
之 后 对 Hive 做 一 个 概括 的 介绍 ， 包 括 它 的 体系 结构 、 工 作 流 程 、 命 令 
行 和 安全 性 。 最 后 用 大 量 HiveQL 代 码 演 示 如 何 实现 销售 订单 数据 仓库 
的 数据 转换 与 法 载 。 


81 ”数据 清洗 


对 大 多 数 用 户 来 说 ，ETL 的 核心 价值 在 “T” 所 代表 的 转换 部 分 。 这 
个 阶段 要 做 很 多 工作 ， 数 据 清洗 就 是 其 中 一 项 重点 任务 。 数 据 清洗 是 
对 数据 进行 重新 审查 和 校 验 的 过 程 ， 目 的 在 于 删除 重复 信息 、 纠 正 存 
在 的 错误 ， 并 提供 数据 一 致 性 。 


1. 处 理 “ 脏 数据 ” 


数据 仓库 中 的 数据 是 面向 某 一 主题 数据 的 集合 ， 这 些 数据 从 多 个 
业务 系统 中 抽取 而 来 ， 并 且 包 含 历史 数据 ， 因 此 就 不 可 避免 地 出 现 某 
些 数 据 是 错误 的 ， 或 者 数据 相互 之 间 存 在 冲突 的 情况 。 这 些 错误 的 或 
有 冲突 的 数据 显然 不 是 我 们 想 要 的 ， 被 称 为 “< 脏 数据 *”。 我 们 要 按照 一 
定 的 规则 处 理 脏 数 据 ， 这 个 过 程 就 是 数据 清洗 。 数 据 清洗 的 任务 是 过 
滤 那 些 不 符合 要 求 的 数据 ， 将 过 滤 的 结果 交 给 业务 主管 部 门 ， 确 认 是 
直接 删除 挤 ， 还 是 修正 之 后 再 进行 抽取 。 不 符合 要 求 的 数据 主要 是 残 
缺 的 效 据 、 销 误 的 数据 、 重 复 的 效 据 、 差 异 的 数据 四 大 类 。 


。 残 缺 数据 。 这 一 类 数据 主要 是 一 些 应 该 有 的 信息 缺失 ， 如 产品 
名 称 、 客 户 名 称 、 客 户 的 区 域 信息 ， 还 包括 业务 系统 中 由 于 铅 
少 外 键 约束 所 导致 的 主 表 与 明细 表 不 能 匹配 等 。 
错误 数据 。 这 一 类 错误 产生 的 原因 多 是 业务 系统 不 够 健全 ， 在 
接收 输入 后 没有 进行 合法 性 检查 或 检查 不 够 严格 ， 将 有 问题 的 
数据 直接 写 入 后 台数 据 库 造成 的 ， 比 如 用 字符 串 存储 数字 、 超 
合法 的 取 值 范围 、 日 期 格式 不 正确 、 日 期 越界 等 。 
重复 数据 。 源 系统 中 相同 的 数据 存在 多 份 。 
差异 数据 。 本 来 具有 同一 业务 含义 的 数据 ， 因 为 来 自 不 同 的 操 
作 型 数据 源 ， 造 成 数据 不 一 致 。 这 时 需要 将 非 标准 的 数据 转化 
为 在 一 定 程度 上 的 标准 化 数据 。 

来 自 操作 型 数据 源 的 数据 如 果 含有 不 洁 成 分 或 不 规范 的 格式 ， 将 
对 数据 仓库 的 建立 和 维护 ， 特 别 是 对 联机 分 析 处 理 的 使 用 ， 造 成 很 多 
问题 和 麻烦 。 这 时 必须 在 ETL 过 程 中 加 以 处 理 ， 不 同类 型 的 数据 ， 处 
理 的 方式 也 不 尽 相同 。 对 于 残缺 数据 ，ETL 将 这 类 数据 过 滤 出 来 ， 按 
缺失 的 内 容 向 业务 数据 的 所 有 者 提交 ， 要 求 在 规定 的 时 间 内 补 全 ， 之 
后 才 写 入 数据 仓库 。 对 于 错误 数据 ， 一 般 的 处 理 方式 是 通过 数据 库 查 
询 的 方式 找 出 来 ， 并 将 脏 数据 反馈 给 业务 系统 用 户 ， 由 业务 用 户 确定 
是 抛弃 这 些 数据 ， 还 是 修改 后 再 次 进行 抽取 ， 修 改 的 工作 可 以 是 业务 
系统 相关 人 员 配 合 ETL 开 发 者 来 完成 。 对 于 重复 数据 的 处 理 ，ETL 系 
统 本 身 应 该 具有 自动 查 重 去 重 的 功能 。 而 差异 数据 ， 则 需要 协调 ETL 
开发 者 与 来 自 多 个 不 同业 务 系统 的 人 员 共 同 确认 参照 标准 ， 然 后 在 
ETL 系 统 中 建立 一 系列 必要 的 方法 和 手段 实现 数据 一 致 性 和 标准 化 。 


2. 数据 清洗 原则 


保障 数据 清 洗 处 理 顺 利 进行 的 原则 是 优先 对 数据 清洗 处 理 流 程 进 
行 分 析 和 系统 化 的 设计 ， 和 针对 数据 的 主要 问题 和 特征 ， 设 计 一 系列 数 


据 对 照 表 和 数据 清洗 程序 库 的 有 效 组 合 ， 以 便 面 对 不 断 变化 的 、 形 形 
色色 的 数据 清洗 问题 。 数 据 清洗 流程 通常 包括 如 下 内 容 。 


。 预 处 理 。 对 于 大 的 数据 加 载 文 件 ， 特 别 是 新 的 文件 和 数据 集 
合 ， 要 进行 预先 诊断 和 检测 ， 不 能 贸然 加 载 。 有 时 需要 临时 编 
写 程 序 进 行 数 据 清洁 检查 。 

标准 化 处 理 。 应 用 建 于 数据 仓库 内 部 的 标准 字典 ， 对 于 地 区 
名 、 人 名 、 公 司 名 、 产 品名 、 分 类 名 以 及 各 种 编码 信息 进行 标 
准 化 处 理 。 

查 重 。 应 用 各 种 数据 库 碍 询 技术 和 手段 ， 避 免 引 入 重复 数据 ; 
出 错 处 理 和 修正 。 将 出 错 的 记录 和 数据 写 入 到 日 志文 件 ， 留 待 
进一步 处 理 。 


3. 数据 清洗 实例 
(1) 身份 证 号 码 格式 检查 


身份 证 号 码 格 式 校 验 是 很 多 系统 在 数据 集成 时 的 一 个 常见 需求 ， 
我 们 以 18 位 身份 证 为 例 ， 使 用 一 个 Hive 查 询 实 现 身 份 证 号 码 的 合法 性 
验证 。 该 查询 结果 是 所 有 不 合 规 的 身份 证 号 码 。 按 以 下 身份 证 号 码 的 
定义 规则 建立 查询 。 

身份 证 18 位 分 别 代 表 的 含义 ， 从 左 到 右 方 分 别 表示 : 


1 人 2， 省 级 行政 区 代码 。 

3 一 4， 地 级 行政 区 划分 代码 。 

5 人 6， 县 区 行政 区 分 代码 。 

77410. 11~12, 13-14, HEF. B., He 

157-17, RFB, [s-—3mpm£E. AA. IJEUATARB mS, 
奇数 是 男性 ， 偶 数 是 女性 。 


。18 校 验 码 ， 如 果 是 0 一 9 则 用 0 一 9 表示 ， 如 果 是 10 则 用 X (罗马 
数字 10) 表示 。 


身份 证 校 验 码 的 计算 方法 : 


步骤 01 将 前 面 的 身份 证 号 码 17 位 数 分 别 乘 以 不 同 的 系数 。 从 第 1 
位 到 第 17 位 的 系数 分 别 为 : 7 一 9 一 10 一 5 一 8 一 4 一 2 一 1 一 6 一 3 一 7 
一 9 一 10 一 5 一 8 一 4 一 2。 

步骤 02 /将 这 17 位 数字 和 系数 相 乘 的 结果 相 加 。 

步骤 03 4 用 加 出 来 和 除 以 11， 看 余数 是 多 少 。 

步骤 044 余数 只 可 能 有 0 一 1 一 2 一 3 一 4 一 5 一 6 一 7 一 8 一 9 一 10 这 11 
个 数字 。 其 分 别 对 应 的 最 后 一 位 身份 证 的 号 码 为 1 一 0 一 X 一 9 一 8 
一 7 一 6 一 5 一 4 一 3 一 2。 


假设 字段 tidcard 存 储 身份 证 号 码 ，Hive 查 询 语句 如 下 : 


- Hive 18 位 身份 证 号 码 验证 
Select * from 
(select trim(upper 
(idcard)) idcard from 


t) t1 
where 


- 号 码 位 数 不 正 确 
length 


(idcard) «» 18 
-- 省 份 代码 不 正确 


or substr 


(idcard,1,2) not in 


人 
EO oe ld pe SA MO a tpg A lee IA dE 
Lda AG dou OU OIM DIETE GIN. 
jo00 BOD Od DN IUDICO go POT 

-- 身份 证 号 码 的 正则 表达 式 判 断 


or 
(if 
(pmod(cast(substr( 

idcard, 7, 4) as int) 


,400) = 0 or 


(pmod(cast(substr 
(idcard, 7, 4) as int) 


,100) «» 0 and 


pmod(cast(substr 


(idcard, 7, 4) as int) 


,4) = 0), zb 半年 
if 


(idcard regexp 'A[1-9][0-9]{5}19[0-9]{2} 
((01|03|05|07|08|10|12) (O[1-9]| [1-2] [0 - 
9]|3[0-1])|(04[|06|09|11)(0[1-9]|[1-2][0-9]|]30) |02(0[1-9] | [1- 
2][0-9]))[0-9](33[0-9X]$', 1,0), 

if 


(idcard regexp 'A[1-9][0-9]{5}19[0-9]{2} 
((01|03|05|07|08|10|12) (0[1-9]| [1-2] [0 - 
9]|3[0-1]) | (04]06|09|11)(0[1-9] | [1-2] [0-9]|30)|02(0[1-9] |1[0- 
9]|2[0-8])) [0-9] (33 [0- 
9X]$',1,0))) = 0 

-- 校 验 位 不 正确 

or substr 


('10X98765432' , pmod( 


(cast(substr( 
idcard,1,1) as int)-*cast(substr( 
idcard,11,1) as int))* 


7 
+(cast(substr( 


idcard,2,1) as int)+cast(substr( 
idcard,12,1) as int))* 


9 
*(cast(substr( 


idcard,3,1) as int)+cast(substr( 
idcard,13,1) as int))* 


10 
*(cast(substr( 


idcard,4,1) as int)+cast(substr( 
idcard,14,1) as int) )* 


5 
*(cast(substr( 


idcard,5,1) as int)+cast(substr( 
idcard,15,1) as int))* 


8 
*(cast(substr( 


idcard,6,1) as int)+cast(substr( 
idcard,16,1) as int))* 


4 
*(cast(substr( 


idcard,7,1) as int)+cast(substr( 


idcard,17,1) as int))* 


2 
*cast(substr( 
idcard, 8,1) as int)* 


1 
*cast(substr( 


idcard, 9,1) as int)* 


6 
*cast(substr( 
idcard,10,1) as int)* 


3,11)+1,1) 
<> cast(substr( 


idcard,18,1) as int) 


这 条 查询 语句 虽然 有 些 复 杂 ， 但 条 理 还 是 比较 清楚 的 。 子 查询 将 
字符 串 转 为 大 写 ， 并 去 掉 左 右 两 边 的 空格 ， 外 层 查 询 的 where 条 件 筛选 
出 四 种 不 符合 规则 的 身份 证 号 码 。 首 先 判断 号 码 长 度 和 省 份 代码 ， 然 
后 利用 Hive 的 正则 表达 式 匹 配 函 数 对 整个 号 码 逐 位 判断 ， 最 后 检查 校 
验 位 是 否 正 确 。 各 种 违规 条 件 之 间 使 用 or 逻辑 运算 符 ， 前 面 的 条 件 一 
旦 满足 即 可 返回 数据 行 ， 而 不 会 再 继续 判断 后 面 的 条 件 。 


(2) 去 除 重复 数据 


有 两 个 意义 上 的 重复 记录 ， 一 是 完全 重复 的 记录 ， 也 即 所 有 字段 
均 都 重复 ， 二 是 部 分 字段 重复 的 记录 。 对 于 第 一 种 重复 ， 比 较 容 易 解 
决 ， 只 需 在 查询 语句 中 使 用 distinct 关 键 字 去 重 ， 几 乎 所 有 数据 库 系统 
都 支持 distinct 操 作 。 发 生 这 种 重复 的 原因 主要 是 表 设 计 不 周 ， 通 过 给 
表 增 加 主键 或 唯一 索引 列 即 可 避免。 


select distinct * from t; 


对 于 第 二 类 重复 问题 ， 通 常 要 求 查 询 出 重复 记录 中 的 任 一 条 记 
录 。 假 设 表 t 有 id、name、address 三 个 字段 ，id 是 主键 ， 有 重复 的 字段 
为 name、address， 要 求 得 到 这 两 个 字段 唯一 的 结果 集 。 


-- 0racle、MySQL， 使 用 相关 子 查询 
select * from 


E. ial 
where 


Bake fo) = 
(select min 


(t2. 1d) 
from 


t t2 
where 


ti.name = t2.name and 


ti.address = t2.address); 


-- Hive 只 支持 在 FROM 子 句 中 使 用 子 查询 ， 子 查询 必须 有 名 字 ， 并 且 列 必须 唯一 
select 


IE 
from 
Eti 


(select 
name, address, min 
(id) id from 
t group by 


name, address) t2 
where 


Bilao S REI 


- 还 可 以 使 用 Hive 的 row_number( ) 分 析 函 数 
select 


t.id, t.name, t.address 
from (select 


id, name, address, 
row_number() 


over (distribute by 
name, address sort by 
id) as 


rn 
from 


t)t 
where 


this 
(3) 建立 标准 数据 对 照 表 


这 是 一 个 真实 数据 仓库 项 目 中 的 案例 。 某 公司 要 建立 一 个 员工 数 
据 仓 库 ， 需 要 从 多 个 业务 系统 集成 员工 相关 的 信息 。 由 于 历史 的 原 
因 ， 该 公司 现存 的 四 个 业务 系统 中 都 包含 员工 数据 ， 这 四 个 业务 系统 
是 HR、OA、 考 勤 和 绩效 考核 系统 。 这 些 系 统 是 彼此 独立 的 ， 有 些 是 
采购 的 商业 软件 ， 有 些 是 公司 自己 开发 的 。 每 个 系统 中 都 有 员工 和 组 
织 机 构 表 ， 存 储 员工 编号 、 姓 名 、 所 在 部 门 等 属性 ， 各 个 系统 的 员工 
数据 并 不 一 致 。 例 如 ， 员 工 入 职 或 离职 时 ，HR 系 统 会 更 新 员工 数据 ， 
但 OA 系统 的 更 新 可 能 会 滞后 很 长 时 间 。 项 目的 目标 是 建立 一 个 全 公司 
唯一 的 、 一 致 的 人 员 信 息 库 。 


我 们 的 思路 是 利用 一 系列 经 过 仔细 定义 的 参照 表 或 转换 表 取 代 那 
些 所 请 硬 编码 的 转换 程序 。 其 优点 是 很 明显 的 : 转换 功能 动态 化 ， 并 


能 适应 多 变 的 环境 。 对 于 建立 在 许多 不 同 数据 源 之 上 的 数据 仓库 来 
说 ， 这 是 一 项 非常 重要 的 基础 工作 。 具 体 方案 如 下 : 


。 建立 标准 码 表 用 以 辅助 数据 转换 处 理 。 

。 建立 与 标准 值 转化 有 关 的 函数 或 子 程序 。 

。 建立 非 标准 值 与 标准 值 对 照 的 映像 表 ， 或 者 别名 与 标准 名 的 对 
照 表 。 


下 面 的 问题 是 确定 标准 值 的 来 源 。 从 业务 的 角度 看 ，HR 系 统 的 数 
据 相 对 来 说 是 最 准确 的 ， 因 为 员工 或 组 织 机 构 的 变化 ， 最 先 反映 到 该 
系统 的 数据 更 新 中 。 以 HR 系统 中 的 员工 表 数 据 为 标准 是 比较 合适 的 选 
择 。 有 了 标准 值 后 ， 还 要 建立 一 个 映像 表 ， 把 其 他 系统 的 员工 数据 和 
标准 值 对 应 起 来 。 比 方 说 有 一 个 员工 的 编号 在 HR 系统 中 为 101， 在 其 
他 三 个 系统 中 的 编号 分 别 是 102、103、104， 我 们 建立 的 映像 表 应 该 与 
表 8-1 类 似 。 


表 8-1 标准 值 映 像 表 


DW B AE DW 标准 值 

员工 编号 101 HR HR 库 . 表 名 . 列 名 101 
员工 编号 101 | OA OA 库 . 表 名 . 列 名 102 
员工 编号 101 ET 考勤 库 . 表 名 . 列 名 | 103 
员工 编号 101 | 绩效 绩效 库 . 表 名 . 列 名 | 104 


这 张 表 建立 在 数据 仓库 的 模式 中 ， 人 员 数 据 从 各 个 系统 抽取 出 来 
以 后 ， 与 标准 值 映 像 表 关联 ， 从 而 形成 统一 的 标准 数据 。 映 像 表 被 其 
他 源 数 据 引 用 ， 是 数据 一 致 性 的 关键 ， 其 维护 应 该 与 HR 系统 同步 。 因 
此 在 ETL 过 程 中 应 该 首先 处 理 HR 表 和 了 映像 表 。 

数据 清洗 在 实际 ETL 开 发 中 是 不 可 缺少 的 重要 一 步 。 即 使 为 了 降 
低 复杂 度 ， 在 我 们 的 销售 订单 示例 中 没有 涉及 数据 清洗 ， 读 者 还 是 应 
该 了 解 相 关内 容 ， 这 会 对 实际 工作 有 所 启发 。 


9.2 ”Hive 简 介 


让 我 们 回 到 实践 中 来 。 本 章 开篇 就 说 明 我 们 要 用 Hive 开 发 销售 订 
单 示例 的 数据 转换 和 装载 过 程 。 在 前 面 的 章节 中 已 经 多 次 进行 了 Hive 
试验 ， 也 介绍 了 Hive 支 持 的 文件 格式 以 及 如 何 支 持 事务 处 理 。 为 了 能 
够 更 好 地 使 用 Hive 完 成 ETL 工 作 ， 有 必要 系统 了 解 一 下 Hive 的 基本 概 
念 及 其 体系 结构 。 


Hive 是 Hadoop 生 态 圈 的 数据 仓库 软件 ， 使 用 类 似 于 SQL 的 语言 
读 、 写 、 管 理 分 布 式 存储 上 的 大 数据 集 。 它 建立 在 Hadoop 之 上 ， 具 有 
以 下 功能 和 特点 : 


。 通过 HiveQL 方 便 地 访问 数据 ， 适 合 执行 ETL、 报 表 查 询 、 数 据 
分 析 等 数据 仓库 任务 。 

。 提供 一 种 机 制 ， 给 各 种 各 样 的 数据 格式 添加 结构 。 

。 直接 访问 HDFS 的 文件 ， 或 者 访问 如 HBase 的 其 他 数据 存储 。 

。 可 以 通过 MapReduce、Spark 或 Tez 等 多 种 计算 框架 执行 查询 。 


Hive 提 供 标准 的 SQL 功能 ， 包 括 2003 以 后 的 标准 和 2011 标 准 中 的 
分 析 特 性 。Hive 中 的 SQL 还 可 以 通过 用 户 定义 的 图 数 (UDFs) 、 用 户 
定义 的 聚合 函数 (UDAFs) . BPEMA RRR (UDTFs) 进行 扩 
展 。Hive 内 建 连 接 器 支持 CSV 文 本 文件 、Parquet、ORC 等 多 种 数据 格 
式 ， 用 户 也 可 以 扩展 支持 其 他 格式 的 连接 器 。Hive 被 设计 成 一 个 可 扩 
展 的 、 高 性 能 的 、 容 错 的 、 与 输入 数据 格式 松 耦 合 的 系统 ， 适 合 于 数 
据 仓 库 中 的 汇总 、 分 析 、 批 处 理 查询 等 任务 ， 而 不 适合 联机 事务 处 理 
的 工作 场景 。Hive 包 括 HCatalog 和 WebHCat 两 个 组 件 。HCatalog 是 
Hadoop 的 表 和 存储 管理 层 ， 人 允许 使 用 Pig 和 MapReduce 等 数据 处 理工 具 
的 用 户 更 容易 读 写 集 群 中 的 数据 。WebHCat 提 供 了 一 个 服务 ， 可 以 使 
用 HTTP 接 口 执行 MapReduce (或 YARN) 、Pig、Hive 作 业 或 元 数据 操 
作 。 


8.2.1 Hive 的 体系 结构 
Hive 的 体系 结构 如 图 8-1 所 示 。 
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图 8-1 Hive 体 系 结构 


Hive 建 立 在 Hadoop 的 分 布 式 文 件 系 统 (HDFS) 和 MapReduce 之 
上 。 上 图 中 显示 了 Hadoop 1 和 Hadoop 2 中 的 两 种 MapReduce 组 件 。 在 
Hadoop 1 中 ，Hive 查 询 被 转化 成 MapReduce 代 码 ， 并 且 使 用 第 一 版 的 
MapReduce 框 架 执 行 ， 如 JobTracker 和 TaskTracker。 在 Hadoop 2 中 ， 
YARN 将 资源 管理 和 调度 从 MapReduce 框 架 中 解 耦 。Hive 查 询 仍然 被 转 
化 为 MapReduce 代 码 并 执行 ， 但 使 用 的 是 YARN 框 架 和 第 二 版 的 
MapReduceo 


为 了 更 好 地 理解 Hive 如 何 与 Hadoop 的 基本 组 件 一 起 协同 工作 ， 可 
以 把 Hadoop 看 作 一 个 操作 系统 ，HDFS 和 MapReduce 是 这 个 操作 系统 
的 组 成 部 分 ， 而 像 Hive、HBase 这 些 组 件 ， 则 是 操作 系统 的 上 层 应 用 


或 功能 。Hadoop 生 态 圈 的 通用 底层 架构 是 HDFS 提 供 分 布 式 存 储 ， 
MapReduce 为 上 层 功能 提供 并 行 处 理 能 力 。 


在 HDFS 和 MapReduce 之 上 ， 图 中 显示 了 Hive 驱 动 程序 和 元 数据 存 
储 。Hive 驱 动 程序 及 其 编译 器 负责 编译 、 优 化 和 执行 HiveQL。 依 赖 于 
具体 情况 ，Hive 驱 动 程序 可 能 选择 在 本 地 执行 Hive 语 名 或 命令 ， 也 可 
能 是 产生 一 个 MapReduce 作 业 。Hive 驱 动 程序 把 元 数据 存储 在 数据 库 
中 。 


默认 配置 下 ，Hive 在 内 建 的 Derby 关 系数 据 库 系统 中 存储 元 数据 ， 
这 种 方式 被 称 为 敌 入 模式 。 在 这 种 模式 下 ，Hive 驱 动 程序 、 元 数据 存 
储 和 Derby 全 部 运行 在 同一 个 Java 虚 拟 机 中 (JVM) 。 这 种 配置 适合 
学 习 目 的 ， 它 只 支持 单一 Hive 会 话 ， 所 以 不 能 用 于 多 用 户 的 生产 环 
境 。Hive 还 允许 将 元 数据 存储 于 本 地 或 远程 的 外 部 数据 库 中 ， 这 种 设 
置 可 以 更 好 地 支持 Hive 的 多 会 话 生 产 环 境 。 并且， 可 以 配置 任何 与 
JDBC API 兼 容 的 关系 数据 库 系统 存储 元 数据 ， 如 MySQL、Oracle 等 。 


对 应 用 支持 的 关键 组 件 是 Hive Thrift 服 务 ， 它 允许 一 个 富 客 户 端 访 
问 Hive， 开 源 的 SQuirreL SQL 客户 端 被 作为 示例 包含 其 中 。 任 何 与 
JDBC 兼 容 的 应 用 ， 都 可 以 通过 绑 定 的 JDBC 驱 动 访问 Hive。 与 ODBC 
兼容 的 客户 端 ， 如 Linux 下 典型 的 unixODBC 和 isql 应 用 程序 ， 可 以 从 远 
程 Linux 客 户 端 访问 Hive。 如 果 在 客户 端 安装 了 相应 的 ODBC 驱 动 ， 其 
至 可 以 从 微软 的 Excel 访 问 Hive。 通 过 Thrift 还 可 以 用 Java 以 外 的 程序 语 
言 ， 如 PHP 或 Python 访问 Hive。 就 像 IDDBC、ODBC 一 样 ，Thrift 客 户 端 
通过 Thrift 服 务 器 访问 Hive。 


架构 图 的 最 上 面包 括 一 个 命令 行 接口 (CLI) ， 可 以 在 Linux 终 端 
窗口 向 Hive 驱 动 程序 直接 发 出 查询 或 管理 命令 。 还 有 一 个 简单 的 Web 
界面 ， 通 过 它 可 以 从 浏览 器 访问 Hive 管 理 表 及 其 数据 。 


8.2.2 ”Hive 的 工作 流程 


从 接收 到 从 命令 行 或 是 应 用 程序 发 出 的 查询 命令 ， 到 把 结果 返回 
给 用 户 ， 期 间 Hive 的 工作 流程 (第 一 版 的 MapReduce) 如 图 8-2 所 示 。 

表 8-2 说 明 Hive 如 何 与 Hadoop 的 基本 组 件 进行 交互 。 从 中 不 难看 
出 ，Hive 的 执行 过 程 与 关系 数据 库 的 非常 相似 ， 只 不 过 是 使 用 分 布 式 
计算 框架 来 实现 。 


图 8-2 Hive LFR 


表 8-2 ”Hive 执 行 流程 


执行 查询 

从 Hive 的 CLI a Web UI 发 查询 命令 给 驱动 程序 (任何 JDBC、ODBC 数据 库 驱 动 ) 执行 
获得 计划 

驱动 程序 请 求 查询 编译 器 解析 查询 、 检 查 语法 、 生 成 查询 计划 或 者 查询 所 需要 的 资源 
获取 元 数据 

编译 器 向 元 数据 存储 数据 库 发 送 元 数据 请 求 

发 送 元 数据 

作为 响应 ， 元 数据 存储 数据 库 向 编译 器 发 送 元 数据 

发 送 计 划 


编译 器 检查 需要 的 资源 ， 并 把 查询 计划 发 送 给 驱动 程序 。 至 此 ， 查 询 解析 完成 

执行 计划 

驱动 程序 向 执行 引擎 发 送 执行 计划 

执行 作业 

执行 计划 的 处 理 是 一 个 MapReduce 作业 。 执 行 引 擎 向 Name node 上 的 JobTracker 进程 发 送 作业 ， 
JobTracker 把 作业 分 配给 Data node 上 的 TaskTracker 进程 。 此 时 ， 查 询 执行 MapReduce 作业 


操作 元 数据 
执行 作业 的 同时 ， 执 行 引 擎 可 能 会 执行 元 数据 操作 ， 如 DDL 语句 等 
取 回 结果 
执行 引擎 从 Data node 接收 结果 
9 发 送 结果 
执行 引擎 向 驱动 程序 发 送 合成 的 结果 值 
10 发 送 结果 


驱动 程序 向 Hive 接口 〈CLI 或 Web UD. 发 送 结果 


8.23 ” Hive 服务器 


我 们 在 5.2 节 中 已 经 提 到 过 Hive 有 HiveServer 和 HiveServer2 两 版 服 
务 器 ， 并 指出 了 两 个 版 本 的 主要 区 别 ， 这 里 再 对 HiveServer2 做 一 些 深 
入 的 补充 说 明 。 


HiveServer2 (后 面 简称 HS2) 是 从 Hive 0.11 版 本 开始 引入 的 ， 它 
提供 了 一 个 服务 器 接口 ， 允 许 客户 端 在 Hive 中 执行 查询 并 取 回 查询 结 
果 。 当 前 的 实现 是 一 个 HiveServer 的 改进 版 本 ， 它 基于 Thrift RPC, x 
持 多 客户 端 身 份 认 证 和 并 发 操作 ， 其 设计 对 JDBC、ODBC 这 样 的 开放 
API 客 户 端 提供 了 更 好 的 支持 。 


HS2 使 用 单一 进程 提供 两 种 服务 ， 分 别 是 基于 Thrift 的 Hive 服 务 和 
一 个 Jetty Web 服 务 器 。 基 于 Thrift 的 Hive 服 务 是 HS2 的 核心 ， 它 对 Hive 
查询 〈 例 如 从 Beeline 里 发 出 的 查询 语句 ， 下 一 小 节 会 详细 介绍 ) 做 出 
响应 。 


Thrift 是 提供 跨 平 台 服务 的 RPC 框 架 ， 人 允许 客户 端 使 用 包括 Java、 
C++、Ruby 和 其 他 很 多 语言 ， 通 过 编程 的 方式 远程 访问 Hive。 它 由 服 
务 器 、 传 输 、 协 议和 处 理 器 四 层 组 成 。 


。 服务 器 。 对 于 TCP 请 求 ，HS2 使 用 Thrift 中 的 TthreadPoolServer 服 
务 器 提供 响应 ， 对 于 HTTP 请 求 ， 会 通过 Jetty 服 务 器 做 出 响应 。 
TThreadPoolServer 会 为 每 个 TCP 连 接 分 配 一 个 工作 线程 ， 该 线 
程 和 相关 的 连接 绑 定 在 一 起 ， 即 便 是 空 连接 也 会 分 配 一 个 线 
程 。 如 果 因 并 发 连接 过 多 使 得 线程 数 太 大 ， 会 有 潜在 的 性 能 问 
题 。 未 来 的 HS2 会 可 能 为 TCP 请 求 提供 其 他 类 型 的 服务 器 ， 例 
如 TThreadedSelectorServero 

传输 。 有 TCP 和 HTTP 两 种 传输 模式 。 如 果 在 客户 端 和 服务 器 之 

间 存 在 代理 服务 器 (如 因为 负载 均衡 或 安全 方面 的 需要 ) ， 那 
么 只 能 通过 HTTP 模 式 访问 Hive。 这 也 就 是 HS2 除 了 TCP 方 式 
外 ， 还 支持 HTTP 的 原因 。 可 以 使 用 hive.server2.transport.mode 
配置 参数 指定 Thrift 服 务 的 传输 模式 。 
协议 。 协 议 的 实现 是 为 了 进行 序列 化 和 反 序列 化 。HS2 当 前 使 
用 TBinaryProtocol 作 为 它 的 Thrift 序 列 化 协议 。 将 来 可 能 会 基于 
性 能 评估 考虑 其 他 协议 ， 如 TCompactProtocol。 

处 理 器 。 负 责 处 理应 用 逻辑 的 请 求 ， 例 如 ， 
ThriftCLIService.ExecuteStatement() 方 法 实现 编译 和 执行 Hive 查 
询 的 逻辑 。 

Hive 通 过 Thrift 提 供 Hive 元 数据 存储 的 服务 。 通 常 来 说 ， 用 户 不 能 
够 调用 元 数据 存储 方法 来 直接 对 元 数据 进行 修改 ， 而 应 该 通过 HiveQL 


语言 让 Hive 来 执行 这 样 的 操作 。 用 户 应 该 只 能 通过 只 读 方式 来 获取 表 
的 元 数据 信息 。 在 5.6 节 我 们 配置 了 SparkSQL 通 过 HS2 服 务 访问 Hive 的 
元 数据 。 

1. 配置 HS2 


不 同 版 本 的 HS2， 配 置 属性 可 能 会 有 所 不 同 。 最 基本 的 配置 是 在 
hive-site.xml 文 件 中 设置 如 下 属性 : 


hive.server2.thrift.min.worker.threads: 默认 值 是 5， 最 小 工作 线 


程 数 。 
e hive.server2.thrift.max.worker.threads ;默认 值 是 500， 最 大 工作 
线程 数 。 


hive.server2.thrift.port: 默认 值 是 10000， 监 听 的 TCP 端 口号 。 
hive.server2.thrift.bind.host: TCP 接 口 绑 定 的 主机 。 


除了 在 hive-site.xml 配 置 文件 中 设置 属性 ， 还 可 以 使 用 环境 变量 设 
置 相关 信息 。 环 境 变量 的 优先 级 别 要 高 于 配置 文件 ， 相 同 的 属性 如 果 
在 环境 变量 和 配置 文件 中 都 有 设置 ， 则 会 使 用 环境 变量 的 设置 ， 就 是 
说 环境 变量 或 覆盖 掉 配 置 文 件 里 的 设置 。 可 以 配置 如 下 环境 变量 : 


。HIVE_SERVER2_THRIFT_BIND_HOST: 用 于 指定 TCP 接 口 绑 
定 的 主机 。 

e HIVE SERVER2 THRIFT PORT: 指定 监听 的 TCP 端 口号 ， 默 
认 值 是 10000。 


HS2 支 持 通过 HTTP 协 议 传 输 Thrift RPC 消 息 (Hive 0.13 以 后 的 版 
本 ) ， 这 种 方式 特别 用 于 支持 客户 端 和 服务 器 之 间 存 在 代理 层 的 情 
况 。 当 前 HS2 可 以 运行 在 TCP 模 式 或 HITP 模 式 下 ， 但 是 不 能 同时 使 用 
两 种 模式 。 使 用 下 面 的 属性 设置 启用 HTTP 模 式 : 


hive.server2.transport.mode : 默认 值 是 binary， 设 置 为 http 启 用 


HTTP 传 输 模式 。 
。 hive.server2.thrift.http.port: 默认 值 是 10001， 监 听 的 HTTP 端口 
So 


hive.server2.thrift.http.max.worker.threads: FAM (872500, ARS 
器 闻 中 的 最 大 工作 线程 数 。 
hive.server2.thrift.http.min.worker.threads: 默认 值 是 5， 服 务 器 闻 
中 的 最 小 工作 线程 数 。 


可 以 配置 hive.server2.global.init.file.location 属 性 指定 一 个 全 局 初始 
化 文件 的 位 置 (Hive 0.14 以 后 版 本 ) ， 它 或 者 是 初始 化 文件 本 身 的 路 
径 ， 或 者 是 一 个 名 为 “hiverc” 的 文件 所 在 的 目录 。 在 这 个 初始 化 文件 
中 可 以 包含 的 一 系列 命令 ， 这 些 命令 会 在 HS2 实 例 中 运行 ， 例 如 注册 
标准 的 JAR 包 或 函数 等 。 


如 下 参数 配置 HS2 的 操作 日 志 : 


e hive.server2.logging.operation.enabled: 默认 值 是 tue， 当 设置 为 
true 时 ，HS2 会 保存 对 客户 端的 操作 日 志 。 


e hive.server2.logging.operation.log.location : 默认 fh 是 
${java.io.tmpdir}/${user.name}/operation_logs ， 指 定 存储 操作 日 
志 的 顶级 目录 。 


hive.server2.logging.operation.verbose: 默认 值 是 false， 如 果 设 置 
为 tue，HS2 客 户 端 将 会 打印 详细 信息 。 
hive.server2.logging.operation.level: 默认 值 是 EXECUTION 1% 
值 允许 在 客户 端的 会 话 级 进行 设置 。 有 四 种 日 志 级 别 ，NONE 
忽略 任何 日 志 ; EXECUTION 记 录 完 整 的 任务 日 志 ; 
PERFORMANCE 在 EXECUTION 加 上 性 能 日 志 ; VERBOSE 记 
录 全 部 日 志 。 


默认 情况 下 ，HS2 以 连接 服务 器 的 用 户 的 身份 处 理 查 询 ， 但 是 如 
果 将 下 面 的 属性 设置 为 false， 那 么 查询 将 以 运行 HS2 进 程 的 用 户 身 份 
执行 。 当 过 到 无 法 创建 临时 表 一 类 的 错误 上 时， 可 以 尝试 设置 此 属性 : 

e hive.server2.enable.doAs : 作为 连接 用 户 的 身份 ， 默 认 值 为 


trueo 


为 了 避免 不 安全 的 内 存 溢出 ， 可 以 通过 将 以 下 参数 设置 为 true， 
茶 用 文件 系统 缓存 : 


。 fs.hdfs.impl.disable.cache: 茶 用 HDFS 缓 存 ， 默 认 值 为 false。 
e fs.file.impl.disable.cache: 禁用 本 地 文件 系统 缓存 ， 默 认 值 为 


falseo 


2. 启动 HS2 
下 面 两 条 命令 都 可 以 用 于 启动 HS2: 


$HIVE HOME/bin/hiveserver2 
$HIVE HOME/bin/hive --service hiveserver2 


3。 临时 目录 管理 


HS2 人 允许 配置 临时 目录 ， 这 些 目录 被 Hive 用 于 存储 中 间 临 时 输 
出 。 临 时 目录 相关 的 配置 属性 如 下 。 


e hive.scratchdir.lock: 默认 值 是 false。 如 果 设 置 为 tue， 临 时 目录 
中 会 持 有 一 个 锁 文件 。 如 果 一 个 Hive 进 程 异常 挂 掉 ， 可 能 会 遗 
留 下 挂 起 的 临时 目录 。 使 用 cleardanglingscratchdir 工 具 能 够 删除 


挂 起 的 临时 目录 。 如 果 此 参数 为 false， 则 不 会 建立 锁 文 件 ， 
cleardanglingscratchdir 工 具 也 不 能 删除 任何 挂 起 的 临时 目录 。 
hive.exec.scratchdir: 指定 Hive 作 业 使 用 的 临时 空间 目录 。 该 目 
录用 于 存储 为 查询 产生 的 不 同 map/reduce 阶 段 计划 ， 也 存储 这 


些 阶 段 的 中 间 输 出 。 
e hive.scratch.dir.permission: 默认 值 是 700。 指 定 特定 用 户 对 根 临 
时 目录 的 权限 。 


hive.start.cleanup.scratchdir: 默认 值 是 false。 指 定 是 否 在 启动 
HS2 时 清除 临时 目录 。 在 多 用 户 环境 下 不 使 用 该 属性 ， 因 为 可 
能 会 删除 正在 使 用 的 临时 目录 。 


4. HS2 的 Web 用 户 界面 (Hive2.0.0 引 入 ) 


HS2 的 Web 界 面 提供 配置 、 日 志 、 度 量 和 活跃 会 话 等 信息 ， 其 使 
用 的 默认 端口 是 10002。 可 以 设置 hive-site.xml 文 件 中 的 
hive.server2.webui.host 、 hive.server2.webui.port 、 
hive.server2.webui.max.threads 等 属性 配置 Web 接 口 。Web 界 面 如 图 8-3 
所 示 。 


HiveServer2 


Active Sessions 
User Name IP Address Operation Count Active Time (s) Idle Time (s) 
anonymous 127.0.0.1 1 99 3 


Total number of sessions: 1 


Queries 
User Name Query State Elapsed Time (s) 
anonymous select count(*) from store sales join store on ss store sk = s store sk RUNNING 6 


Total number of queries: 1 


Software Attributes 


Attribute Name Value Description 

Hive Version 2.0.0-SNAPSHOT, rd4oba26021cfcc47ab50d7519664boa271469a3f Hive version and revision 

Hive Compiled Thu Nov 19 08:08:09 PST 2015, jxiang When Hive version was compiled and by whom 
HiveServer2 Start Time Thu Nov 19 08:15:49 PST 2015 Date stamp of when this HiveServer2 was started 


图 8-3 ”HiveServer2 的 Web 界 面 


5。 查 看 Hive 版 本 


Hive 没 有 提供 --version 命 令 行 参 数 或 者 version0) 国 数 的 方式 查看 版 
本 号 。 可 以 使 用 两 种 方法 查看 Hive 版 本 。 


(1) 要 找到 Hive 安 装 目 录 ， 然 后 查看 jar 包 的 版 本 号 。 


[root@cdhi~]#ls /opt/cloudera/parcels/CDH-5.7.0/lib/hive/1lib 
| grep hwi 

hive-hwi-1.1.0-cdh5.7.0.jar 

hive-hwi.jar 


[root@cdhi~ ]# 


(2) 查询 元 数据 存储 数据 库 的 version 表 ， 例 如 从 MySQL 中 执行 
的 查询 和 结果 如 下 。 


mysql» select * from hive.version; 


4p-------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
| VER ID | SCHEMA VERSION | VERSION COMMENT | 
4-------- 4---------------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| T lt | Hive release version 1.1.0 | 
十 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


row in set (0.00 sec) 


8.2.4 Hive 客 户 端 


Hive 最 初 的 形式 是 一 个 重量 级 的 命令 行 工 具 ， 它 接收 查询 指令 
利用 MapReduce 执 行 查询 。 后 来 Hive 采 用 了 客户 端 -服务 器 模式 ， 
HiveServer (简称 HS1) 作为 服务 器 端 ， 负 责 将 查询 语句 编译 成 
MapReduce 人 作业， 并 监控 它们 的 执行 。 而 Hive CLI (hive shell 命 令 ) 是 
一 个 命令 行 接 口 ， 负 责 接 收 用 户 的 HiveQL 语 句 ， 并 传送 到 服务 器 。 


Hive 社 区 在 0.11 版 中 引入 了 HS2， 并 推荐 使 用 新 的 Beeline 命 令 行 接 
Ll (beeline shell 命 令 ) ，HS1 及 其 Hive CLI 不 再 建议 使 用 ， 甚 至 过 时 
的 Hive CLI 客 户 端 方案 以 后 可 能 将 不 能 与 HS2 一 起 使 用 。 下 面 重 点 介 
绍 Beeline 客 户 端 ， 在 本 小 节 最 后 说 明 Hive CLI 和 Beeline 用 法 上 的 主要 
差别 。 


Beeline 是 为 与 新 的 Hive 服 务 器 进行 交互 而 特别 开发 的 。 与 Hive 
CLI 不 同 ，Beeline 不 是 基于 Thrift 的 客户 端 ， 而 是 一 个 基于 SQLLine 
CLI 的 JDBC 客 户 端 ， 尽 管用 于 和 HS2 通 信和 有 的 JDBC 驱 动 程序 还 是 使 用 的 
Thrift API。Beeline 有 散 入 和 远程 两 种 操作 模式 。 在 误 入 模式 中 ， 它 运 
行 一 个 佬 入 的 类 似 于 hive 的 shell 命 令 ; 而 在 远程 模式 中 ， 它 通过 Thrift 
服务 连接 一 个 分 离 的 HS2 进 程 。 从 Hive 0.14 开 始 ， 当 Beeline 与 HS2 联 
合 使 用 时 ， 还 会 在 交互 式 查询 中 打印 很 长 的 HS2 消 息 信息 。 生 产 系 统 
推荐 使 用 远程 HS2 模 式 ， 因 为 它 更 安全 ， 不 需要 授予 用 户 直 接 访 问 
HDFS 或 元 数据 存储 的 权限 。 


1。Beeline 命 令 


$HIVE_HOME/bin/beeline 这 个 shell 命令 (后 面 简称 为 beeline) FB 
于 连接 Hive 服 务 器 。 假 定 已 经 将 $HIVE_HOME/bin 加 入 到 环境 变量 
PATH 中 ， 则 只 需要 在 shell 提 示 符 中 输入 beeline， 就 可 以 使 用 户 的 shell 
环境 如 bash 找 到 这 个 命令 。 下 面 是 在 示例 环境 CDH 5.7.0 中 的 一 个 例 
T. 


[root@cdh1~]#beeline 

Beeline version 1.1.0-cdh5.7.0 by Apache Hive 
beeline> !connect jdbc:hive2://cdh2:10000 

scan complete in 3ms 

Connecting to jdbc:hive2://cdh2:10000 

Enter username for jdbc:hive2://cdh2:10000: 

Enter password for jdbc:hive2://cdh2:10000: 
Connected to: Apache Hive (version 1.1.0-cdh5.7.0) 
Driver: Hive JDBC (version 1.1.0-cdh5.7.0) 
Transaction isolation: TRANSACTION REPEATABLE READ 
0: jdbc:hive2://cdh2:10000» show databases; 

二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 

| database name | 


+---------------- +--+ 
| default | 
| dw | 
| olap | 
| rds | 
| test | 
二 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


5 rows selected (0.288 seconds) 


也 可 以 在 命令 行 直接 指定 连接 参数 。 这 意味 着 能 够 在 Linux shell 的 
命令 历史 history 中 找到 含有 连接 字符 串 的 beeline 命 令 。 


beeline -u jdbc:hive2://cdh2:10000/test 


命令 行 中 的 -h 或 --help 参 数 会 输出 帮助 信息 。 


[rootQcdhl-]f£beeline --help --service cli 
usage: hive 


-d,--define <key=value> Variable subsitution to apply to hive 
commands. e.g. -d A-B or --define A-B 
--database <databasename> Specify the database to use 
-e <quoted-query-string> SQL from command line 
-f «filename» SQL from files 
-H,--help Print help information 
--hiveconf <property=value> Use value for given property 
--hivevar <key=value> Variable subsitution to apply to hive 
commands. e.g. --hivevar A-B 
-i «filename» Initialization SQL file 
-S,--silent Silent mode in interactive shell 
-v,--verbose Verbose mode (echo executed SQL to the 
console) 


2. 连接 URL 


Beeline 客 户 端 使 用 URL 格 式 连接 Hive 数 据 库 ，HS2 的 URL 连 接 字 
符 串 语法 如 下 : 


jdbc:hive2://«hosti»:«port1», <host2>:<port2>/dbName; initFile- 
«file»;sess var list?hive conf 1 
ist£hive var list 


e <host1>:<port1>,<host2>:<port2>: 要 连接 的 一 个 服务 器 实例 ， 
或 者 是 用 召 号 分 隔 的 多 个 服务 器 实例 ， 如 果 为 空 ， 将 使 用 嵌入 
模式 。 

。 dbName: 初始 连接 的 数据 库 名 称 。 

e <file>: 初始 化 脚本 的 路 径 (Hive 2.2.0 及 以 后 版 本 支持 ) 。 这 
个 脚本 文件 中 的 HiveQL 语 句 会 在 连接 后 自动 执行 。 该 选项 可 以 

e sess var list: 以 一 个 逗号 分 隔 的 、 会 话 级 变量 的 键 二 值 对 列 
表 。 

e hive conf list: 以 一 个 逗号 分 隔 的 、Hive 配 置 变 量 的 键 二 值 对 
列表 。 

e hive var list: 以 一 个 逗号 分 隔 的 、Hive 变 量 的 键 二 值 对 列表 。 


JDBC 连接 具 有 jdbchive2:/ 前缀， 驱动 的 类 是 
org.apache.hive.jdbc.HiveDriver。 注 意 这 和 老 的 HS1 不 同 。 


对 于 远程 连接 模式 ， 连 接 URL 的 格式 为 : 


jdbc:hive2://<host>:<port>/<db>;initFile=<file> (HS2 默认 的 端 
He 10000) 。 


WIT EUNXEHUS IL, FERRURLBUARIUAJ: 


jdbc:hive2:///;initFile-«file» (没有 主机 名 和 端口 ) 。 


当 HS2 以 HTTP 模 式 运行 时 ， 连 接 URL 的 格式 为 : 


jdbc:hive2://<host>:<port>/<db>; transportMode-http;httpPath- 
<http_endpoint>， 其 中 
<http_endpoint> 对 应 的 是 hive-site.xml 文 件 中 配置 
hive.server2.thrift.http.path 属性 值 ， 默 认 值 为 

cliservice。 默 认 的 HTTP 传 输 端 口 为 10001。 


当 HS2 启 用 了 SSL 时 ， 连 接 URL 的 格式 为 : 


jdbc:hive2://«host»:«port»/«db»;ssl-true;sslTrustStore- 
«trust store path»;trustStorePassword- 
«trust store password» 


其 中 «trust store path» 是 客户 端 信任 文件 所 在 路 径 ， 
<trust_store_password> 是 访问 信任 文件 所 需 的 密码 。 相 应 HTTP 模 式 的 
格式 为 : 


jdbc:hive2://«host»:«port»/«db»;ssl-true;sslTrustStore- 
«trust store path»;trustStorePassword- 


«trust store password»;transportMode-http;httpPath- 
«http endpoint»e 


从 Hive 2.1.0 开 始 ，Beeline 支 持 命 名 UREL 连 接 串 ， 这 是 通过 环境 变 
量 实现 的 。 如 果 使 用 !connect 连 接 一 个 名 称 ， 而 不 是 URL， 那 么 Beeline 
会 查找 一 个 名 为 BEELINE_URIL_<name> 的 环境 变量 。 例 如 ， 如 果 命 令 
为 Iconnect blue，Beeline 会 查找 BEELINE_URL_BLUE 环 境 变量 ， 并 使 
用 该 变量 的 值 做 连接 。 对 于 系统 管理 员 来 说 ， 为 用 户 设置 环境 变量 相 
对 方便 些 ， 用 户 也 不 需要 在 每 次 连接 时 都 键入 完整 的 URL 字 符 串 。 


!reconnect 命 令 用 于 刷新 已 经 建立 的 连接 ， 如 果 已 经 执行 1close 命 
令 关 闭 了 连接 ， 则 不 能 再 刷新 连接 。 从 Hive 2.1.0 起 ，Beeline 会 记 住 一 
个 会 话 最 后 成 功 连接 的 URL， 这 样 即使 已 经 运行 了 !close 命 令 也 能 够 重 
连 。 另 外 ， 如 果 用 户 执 行 了 !save 命 令 ， 连 接 会 被 保存 到 
beeline.properties 文 件 中 ， 当 执行 !reconnect 时 ， 会 连接 到 这 个 保存 的 
URL。 也 可 以 在 命令 行使 用 -r 参 数 ， 在 启动 Beeline 时 执行 重 连 操作 。 


3。 变量 和 属性 


--hivevar 参 数 可 以 让 用 户 在 命令 行 定 义 自 己 的 变量 以 便 在 Hive 脚 
本 中 引用 ， 以 满足 不 同情 况 的 需要 。 这 个 功能 只 有 Hive 0.8.0 及 其 之 后 
版 本 才 支 持 。 当 使 用 这 个 功能 时 ，Hive 会 将 键 二 值 对 放 到 hivevar 命 名 
空间 ， 这 样 就 能 和 另外 三 种 内 置 的 命名 空间 (hiveconf. system 和 
env) 加 以 区 分 。 表 8-3 描 述 了 Hive 的 4 种 命名 空间 选项 。 


表 8-3 ”Hive 中 变量 和 属性 的 命名 空间 


命名 空间 使 用 权限 描述 

hivevar 可 读 写 用 户 自 定义 变量 (Hive 0.8.0 及 其 以 后 版 本 ) 
liveconf 可 读 写 Hive 相关 的 配置 属性 

system 可 读 写 Java 定义 的 配置 属性 


Env 只 读 shell 环境 (如 bash) 定义 的 环境 变量 


变量 在 Hive 内 部 是 以 Java 字 符 串 的 方式 存储 的 。 用 户 可 以 在 查询 
中 引用 变量 。Hive 会 先 使 用 变量 值 替 换 掉 查询 的 变量 引用 ， 然 后 才 会 
将 查询 语句 提交 给 查询 处 理 器 。 在 beeline 环 境 中 ， 可 以 使 用 set 命 令 显 
示 或 者 修改 变量 值 。 例 如 ， 下 面 这 个 会 话 先 显示 一 个 env 变 量 的 值 ， 然 
后 再 显示 所 有 命名 空间 中 定义 的 变量 。 为 了 更 清晰 地 表现 ， 我 们 省 略 
掉 这 个 Hive 会 话 中 大 量 的 输出 信息 : 


0: jdbc:hive2://cdh2:10000/test» set env:HOME; 


qm eee +--+ 
| set | 
4-222 ee eee +--+ 
| env:HOME-/var/lib/hive | 
foie eee ee +--+ 


1 row selected (0.126 seconds) 


0: jdbc:hive2://cdh2:10000/test>set; 

.. ,非常 多 的 输出 信息 . . ， 

0: jdbc:hive2://cdh2:10000/test»set -v; 
, ,更 多 的 输出 信息 ! ..， 


如 果 不 加 -v 标 记 ，set 命 令 会 打印 出 hivevar、hiveconf、system 和 
env 中 所 有 的 变量 。 使 用 -v 标 记 ， 则 会 打印 出 Hadoop 中 所 定义 的 所 有 属 
性 。 例 如 控制 HDFS 和 MapReduce 的 属性 。set 命 令 还 可 用 于 给 变量 赋 新 
的 值 。 我 们 特别 看 下 hivevar 命 名 空间 以 及 如 何 通过 命令 行 定义 一 个 变 


ER. 


[root@cdhi~ ]#beeline --hivevar foo=bar 

beeline> set foo; 

No current connection 

beeline» !connect jdbc:hive2://cdh2:10000 

scan complete in 3ms 

Connecting to jdbc:hive2://cdh2:10000 

Enter username for jdbc:hive2://cdh2:10000: 

Enter password for jdbc:hive2://cdh2:10000: 
Connected to: Apache Hive (version 1.1.0-cdh5.7.0) 
Driver: Hive JDBC (version 1.1.0-cdh5.7.0) 
Transaction isolation: TRANSACTION REPEATABLE READ 
0: jdbc:hive2://cdh2:10000> set foo; 


1 row selected (0.123 seconds) 

0: jdbc:hive2://cdh2:10000» set hivevar:foo-bar2; 
No rows affected (0.005 seconds) 

0: jdbc:hive2://cdh2:10000» set hivevar:foo; 


Po +--+ 
| set | 
fia ee ee +--+ 
| hivevar:foo-bar2 | 
dollllll2-.l-22.-22- +--+ 


1 row selected (0.007 seconds) 
0: jdbc:hive2://cdh2:10000> set foo; 


doeneneasas 十 - -十 
| set | 
doeosceoscoo 十 - -十 
| foo=bar2 | 
doeosceoscoo 十 - -十 


1 row selected (0.01 seconds) 


可 以 看 到 ， 前 缀 hivevar: 是 可 选 的 ， 如 果 不 加 前 缀 ， 默 认 的 命名 空 
间 就 是 hivevar。 在 beeline 环 境 中 ， 查 询 语句 的 变量 引用 会 先 被 奉 换 
掉 ， 然 后 才 提交 给 查询 处 理 器 。 


0: jdbc:hive2://cdh2:10000» create table tl(i int,${hivevar:foo} string); 
No rows affected (0.135 seconds) 
0: jdbc:hive2://cdh2:10000» desc t1; 


4----------- 二 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
| col name | data type | comment | 
4+----------- 十 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 +--+ 
st TE | | 
| bar2 | string | | 
4----------- 二 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 +--+ 


2 rows selected (0.118 seconds) 


0: jdbc:hive2://cdh2:10000> create table t2(i int,${foo} string); 
No rows affected (0.09 seconds) 
0: jdbc:hive2://cdh2:10000> desc t2; 


HESS SSS SSS 于 二 = 二 一 = 一 一 一 一 二 一 一 SSS Sees o 
| col name | data type | comment | 
十 -一 一 一 一 一 二 二 一 一 二 -一 一 一 = 二 一 一 一 圭一 一 一 一 一 一 一 二 一 一 toot 
] a [int | | 
| bar2 | string | | 
二 Se Ar “pase 


2 rows selected (0.119 seconds) 


--hiveconf 选 项 是 hive 0.7 版 本 后 支持 的 功能 ， 用 于 配置 Hive 行 为 的 
所 有 属性 。 我 们 甚至 可 以 增加 新 的 hiveconf 属 性 。 


0: jdbc:hive2://cdh2:10000> set hiveconf:y-1; 
No rows affected (0.005 seconds) 
0: jdbc:hive2://cdh2:10000» set hiveconf:y; 


4--------------- +--+ 
set | 

42-------------- +--+ 
hiveconf:y-1 | 

4--------------- +--+ 


1 row selected (0.008 seconds) 
0: jdbc:hive2://cdh2:10000> select * from t where id=${hiveconf:y}; 


+------- +--------- +------------ +--+ 
t.id | t.name | t.address | 

+------- + 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
1 | ai | bi 

+ 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 


1 row selected (16.079 seconds) 


我 们 还 有 必要 了 解 一 下 system 命 名 空间 ， 它 定义 Java 系 统 属性 。 
Beeline 对 这 个 命名 空间 内 容 具 有 可 读 写 权利 ， 而 对 于 env 命 名 空间 的 环 
境 变 量 只 提供 读 权限 。 


0: jdbc:hive2://cdh2:10000» set system:user.name; 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 

| set | 

4------------------------ +--+ 

| system:user.name=hive | 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 

1 row selected (0.009 seconds) 

0: jdbc:hive2://cdh2:10000> set system:user.name-hive2; 
No rows affected (0.008 seconds) 

0: jdbc:hive2://cdh2:10000» set system:user.name; 


| system:user.name-hive2 | 

十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 

1 row selected (0.009 seconds) 

0: jdbc:hive2://cdh2:10000> set env:HOME; 


4------------------------- 十 一 一 十 
| Set | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
| env:HOME-/var/lib/hive | 
4------------------------- +--+ 


1 row selected (0.011 seconds) 
0: jdbc:hive2://cdh2:10000> set env:HOME-/var/lib/hive2; 
Error: Error while processing statement: null (state-,code-1) 


和 hivevar 变 量 不 同 ， 用 户 必须 使 用 system: 或 者 env: 前 级 来 指定 系 
统 属性 和 环境 变量 。env 命 名 空间 可 作为 向 Hive 传 递 变量 的 一 个 可 选 的 
733Xo 


$ [root@cdhi~]# YEAR-2106 
$ [root@cdhi~]# beeline -u jdbc:hive2://cdh2:10000/test -e 


"select * from t where year - 
$(env: YEAR)"; 
查询 处 理 器 会 在 where 子 句 中 查看 到 实际 的 变量 值 为 2016。Hive 中 
所 有 的 内 置 属性 都 在 $bHIVE_HOME/conf/hive-default.xml.template 文 件 
中 列举 出 来 了 ， 这 是 个 样 例 配置 文件 ， 其 中 还 说 明了 这 些 属性 的 默认 
值 。 


4。 在 命令 行 中 执行 HiveQL 语句 


用 户 有 时 可 能 希望 执行 一 个 或 多 个 查询 (使 用 分 号 分 隔 ) ， 执 行 
结束 后 立即 退出 命令 行 。Hive 提 供 了 这 样 的 功能 ， 因 为 beeline 可 以 接 
受 -e 参 数 这 种 形式 。 例 如 查询 表 t， 我 们 可 以 看 到 如 下 输出 : 


root@cdhl~]#beeline -u jdbc:hive2://cdh2:10000/test -e "select * from t" 
4------- 4R--------- 4------------ +--+ 


t.id | t.name t.address | 
4R------- 4R--------- 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
1 | aL b1 | 
2 | al bl 
3 | a2 b2 | 
4 | a2 b2 | 
4------- +--------- +------------ 十 一 一 十 
4 rows selected (0.254 seconds) 
Beeline version 1.1.0-cdh5.7.0 by Apache Hive 


Closing: 0: jdbc:hive2://cdh2:10000/test 
[root@cdh1~] # 


5. 执行 HiveQL 文 件 


Hive 中 可 以 使 用 -f 文 件 名 的 方式 执行 指定 文件 中 的 一 个 或 者 多 个 
查询 语句 。 按 照 惯 例 ， 一 般 把 这 些 Hive 查 询 文 件 保 存 为 具有 .q 或 者 .hql 
后 缀 名 的 文件 ， 我 们 在 后 面 的 示例 中 仍然 使 用 传统 的 .sql 作 为 脚本 文件 
Ies 


[root@cdhi~]#beeline -u jdbc:hive2://cdh2:10000/dw -f 
create table date dim.hql 


6. 杂项 功能 


Beeline 命 令 行 还 支持 其 他 一 些 有 用 的 功能 。 如 果 用 户 在 输入 的 过 
程 中 单 击 Tab 制 表 符 键 ， 那 么 命令 行 接口 会 自动 补 全 可 能 的 关键 字 或 者 
函数 名 。 例 如 用 户 输入 sele， 然 后 按 Tab 键 ， 命 令 行 接口 会 自动 补 全 这 
个 词 为 select。 如 果 用 户 在 提示 符 后 面 敲 击 Tab 键 ， 那 么 用 户 会 看 到 如 
下 回复 : 


0: jdbc:hive2://cdh2:10000/test» Display all 560 
possibilities? (y or n) 

当 向 命令 行 接口 中 输入 语句 时 ， 如 果 某 些 行 出 现 Tab 键 的 话 ， 就 会 
产生 一 个 常见 的 令 人 困惑 的 错误 。 用 户 这 时 会 看 到 一 个 “Display all 
560 possibilities? (y or n)* 的 提示 ， 而 且 输 入 流 后 面 的 字符 就 会 被 认为 
是 对 这 个 提示 的 回复 ， 也 因此 会 导致 命令 执行 失败 。 


用 户 可 以 使 用 上 下 箭头 来 滚动 查看 之 前 的 历史 命令 。 事 实 上 ， 每 
一 行 之 前 的 输入 都 是 单独 显示 的 ，Beeline 不 会 把 多 行 命 令 和 查询 作为 
一 个 单独 的 历史 条 目 。Hive 会 将 最 近 的 命令 记录 到 文件 
$HOME/.beeline/history 中 。 如 果 用 户 想 再 次 执行 之 前 执行 过 的 某 条 命 
令 ， 只 要 在 Beeline 环 境 的 提示 符 下 ， 将 光标 滚动 到 那 条 记录 ， 然 后 按 
回 车 键 就 可 以 了 。 如 果 用 户 需要 修改 这 行 记 录 后 再 执行 ， 那 么 需要 使 


用 左右 方向 键 将 光标 移动 到 需要 修改 的 地 方 重 新 编辑 修改 ， 之 后 直接 
按 回 车 键 就 能 提交 这 条 命令 ， 而 无 须 将 光标 移动 到 命令 末尾 。 


用 户 还 可 以 在 Beeline 命 令 行 中 执行 Hadoop 的 dfs 命 令 ， 只 需要 将 命 
令 中 的 关键 字 hadoop 去 掉 ， 然 后 以 分 号 结尾 就 可 以 了 : 


0: jdbc:hive2://cdh2:10000/test» dfs -ls /; 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 十 
DFS Output 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +--+ 
Found 5 items 
drwxr-xr-x - hbase hbase 0 2016-08-18 13:42 /hbase 
drwxr-xr-x - root supergroup 0 2016-08-19 17:29 /logs 
drwxr-xr-x - WXy supergroup 0 2016-08-13 15:03 /opt 
drwxrwxrwt - hdfs supergroup 0 2016-08-13 15:12 /tmp 
drwxr-xr-x - hdfs supergroup 0 2016-08-13 14:39 /user 

4R--------2--2---2-2--2-2-2--2-2-22-2-22-2-2-2-2-2-2-22-2-2-2-2-2-22-2-2-2-2-2---2-2-2---2-2-2-2-2--2-2-2------- 十 一 一 十 


6 rows selected (0.238 seconds) 


这 种 使 用 hadoop 命 令 的 方式 实际 上 比 与 其 等 价 的 在 bash shell FIA, 
行 的 hadoop dfs 命 令 效率 更 高 ， 因 为 后 者 每 次 都 会 启动 一 个 新 的 JVM 实 
例 ， 而 Hive 会 在 同一 个 进程 中 执行 这 些 命令 。 用 户 可 以 通过 如 下 命令 
查看 dfs 所 提供 的 所 有 功能 选项 列表 : 


0: jdbc:hive2://cdh2:10000/test> dfs -help; 


以 -- 开 头 的 字符 串 用 来 表示 注释 ， 命 令 行 接口 不 会 解析 这 些 注释 
行 。Hive 客 户 端 目前 还 不 支持 /*#/ 这 种 语法 的 多 行 注释 。 

可 以 使 用 show functions 命 令 列 出 当前 Hive 会 话 中 所 加 载 的 所 有 子 
数 名 称 ， 其 中 包括 内 置 的 和 用 户 加 载 的 函数 。 函 数 通 常 都 有 其 自身 的 
使 用 文档 ， 使 用 desc function 命 令 可 以 展示 对 应 函数 的 简短 介绍 ， 还 可 
以 通过 增加 extended 关 键 字 查看 更 详细 的 水 数 文档 。 这 是 一 种 很 有 用 
的 联机 帮助 方式 。 


0: jdbc:hive2://cdh2:10000/test» show functions; 


abs 


acos 
add months 


213 rows selected (0.178 seconds) 
0: jdbc:hive2://cdh2:10000/test» desc function abs; 
abs(x) - returns the absolute value of x 
0: jdbc:hive2://cdh2:10000/test» desc function extended abs; 
abs(x) - returns the absolute value of x 


Example: 
» SELECT abs(0) FROM src LIMIT 1; 
0 
> SELECT abs(-5) FROM src LIMIT 1; 
5 


7。 输 出 格式 


在 Beeline 中 ， 碍 询 结果 能 以 不 同 的 格式 显示 出 来 。 显 示 格 式 可 以 
通过 outputformat 选项 设置 。 支 持 的 输出 格式 有 table vertical, 
xmlattr、xmlelements 和 分 隔 值 格式 (csv. tsv. csv2. tsv2. dsv) o LA 
下 是 一 些 不 同 格式 的 输出 示例 。 


«result» 
<id>2</id> 
<value>Value2</value> 
<comment>Test comment 2</comment> 
</result> 
<result> 
<id>3</id> 
<value>Value3</value> 
<comment>Test comment 3</comment> 
</result> 
</resultset> 
csv 格式 : 
'id','value','comment' 
'l','Valuel','Test comment 1' 
'2','Value2','Test comment 2' 
'3', 'Value3', 'Test comment 3' 
csv2 格式 : 
id,value,comment 
1,Valuel,Test comment 1 
2,Value2,Test comment 2 
3,Value3,Test comment 3 


tsv 格式 : 

yo 'value' 'comment' 

ugs 'Valuel''Test comment 1' 
12M 'Value2''Test comment 2' 
Sud 'Value3''Test comment 3' 
tsv2 格式 

id value comment 

1 Valuel Test comment 1 

2 Value2 Test comment 2 

3 Value3 Test comment 3 

dsv 格式 : 


id|value|comment 

1|Valuel|Test comment 1 
2|Value2|Test comment 2 
3|Value3|Test comment 3 


8. Hive CLI 和 Beeline 使 用 上 的 主要 差别 


随 着 Hive 从 原始 的 HS1 服 务 器 进化 为 新 的 HS2， 用 户 和 开发 者 也 需 
要 将 客户 端 工具 从 原来 的 Hive CLI 切 换 为 新 的 Beeline， 然 而 这 种 切换 
并 不 只 是 将 “hive” 命 令 换 成 “beeline”* 命 令 这 么 简单 。 下 面 介绍 两 种 客户 
端 用 法 上 的 主要 差异 。 


。 Hive CLI 提 供 了 一 个 可 以 打印 RCFile 格 式 文 件 内 容 的 工具 ， 
如 : 


hive --service rcfilecat 
/user/hive/warehouse/columntable/000000 0 


Beeline 没 有 此 项 功能 。 


e Hive CLI 可 以 使 用 source 命 令 来 执行 脚本 文件 ， 如 : 


hive> source /path/to/file/queries.hql; 
Beeline IItIM KE. 


。 Hive CLI 可 以 配置 hive.cli.print.current.db 属 性 ， 在 命令 行 提示 符 
前 打印 当前 数据 库 名 ， 如 : 


$hive -hiveconf hive.cli.print.current.db-true 
hive (default)» set hive.cli.print.current.db; 
hive.cli.print.current.db-true 


Beeline 使 用 --showDbInPrompt 命 令 行 参数 实现 此 功能 (2.2.0 B 28 
新 增 ) 。 


。 Hive CLI 可 以 使 用 “操作 符 执行 shell 命 令 ， 如 : 


hive» ! pwd; 
/home/root 


Beeline 中 不 能 执行 shell 命 令 ， 其 中 的 “符号 是 用 来 执行 Beeline 命 
从 
令 的 ， 如 : 


beeline> !connect jdbc:hive2://cdh2:10000 


。 在 Hive CLI 中 ， 默 认 时 在 查询 结果 中 不 显示 字段 名 称 ， 需 要 设 
置 hive.cli.print.header 选 项 打印 字段 名 称 ， 如 : 


hive» set hive.cli.print.header-true; 


而 Beeline 不 需要 此 项 设置 就 会 在 输出 中 显示 字段 名 称 。 


。Hive CLI 中 可 以 使 用 --define 命 令 行 参数 设置 变量 ， 它 和 -- 
hivevar 是 相同 的 ， 如 : 


hive --define foo=bar 


而 在 Beeline 中 --define 参 数 是 无 效 的 ， 只 能 使 用 --hivevar 参 数 。 


。 Hive CLI 可 以 使 用 -S 选 项 开启 静默 模式 ， 这 样 可 以 在 输出 结果 
中 去 掉 额 外 的 输出 信息 ， 而 Beeline 虽 然 提 供 了 -silent 参 数 ， 似 
乎 能 起 到 相同 的 效果 ， 但 实际 上 不 行 《至 少 在 CDH 5.7.0 上 ， 该 
参数 和 hive 的 -S 作 用 是 不 同 的 ) 。 

。 Hive CLI 支 持 管 道 符 。 例 如 ， 用 户 没 有 记 清 楚 哪 个 属性 指定 了 
管理 表 的 “warehouse” 路 径 ， 通 过 如 下 的 命令 可 以 查看 到 


hive -e "set" | grep warehouse 


上 面 的 命令 换 成 beeline 则 不 会 得 到 想 要 的 结果 。 


Beeline 需 要 在 客户 端 脚本 中 添加 设置 支持 事务 的 Set 命令 ， 即 使 在 
服务 器 端的 hivesite.xml 文 件 中 已 经 设置 ， 而 Hive CLI 则 不 需 
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对 Hive 的 服务 器 结构 和 命令 行 有 一 定 了 解 后 ， 开 始 进行 销售 订单 
示例 数据 仓库 的 数据 转换 和 装载 过 程 的 设计 与 编程 。 在 编写 HiveQL 脚 
本 时 ， 我 们 会 用 到 Hive 客 户 端的 相关 知识 。 

在 数据 仓库 可 以 使 用 前 ， 需 要 装载 历史 数据 。 这 些 历史 数据 是 导 
入 进 数据 仓库 的 第 一 个 数据 集合 。 首 次 装载 被 称 为 初始 装载 ， 一 般 是 
一 次 性 工作 。 由 最 终 用 户 来 决定 有 多 少 历史 数据 进入 数据 仓库 。 例 
如 ， 数 据 仓 库 使 用 的 开始 时 间 是 2015 年 3 月 1 日 ， 而 用 户 希 望 装载 两 年 
的 历史 数据 ， 那 么 应 该 初始 装载 2013 年 3 月 1 日 到 2015 年 2 月 28 日 之 间 的 
源 数据 。 在 2015 年 3 月 2 日 装载 2015 年 3 月 1 日 的 数据 (假设 执行 频率 是 
每 天 一 次 ) ， 之 后 周期 性 地 每 天 装载 前 一 天 的 数据 。 在 装载 事实 表 
前 ， 必 须 先 装载 所 有 的 维度 表 。 因 为 事实 表 需 要 引用 维度 的 代理 键 。 
这 不 仅 针 对 初始 装载 ， 也 针对 定期 装载 。 本 节 说 明 执 行 初始 装载 的 步 
又， 包括 标识 源 数 据 、 维 度 历 史 的 处 理 、 使 用 HiveQL 开 发 和 验证 初始 
装载 过 程 。 

设计 开发 初始 装载 步骤 前 需要 识别 数据 仓库 的 每 个 事实 表 和 每 个 
维度 表 用 到 的 并 且 是 可 用 的 源 数据 ， 还 要 了 解数 据 源 的 特性 ， 例 如 文 
件 类 型 、 记 录 结 构 和 可 访问 性 等 。 表 8-4 显 示 的 是 销售 订单 示例 数据 仓 
库 需 要 的 源 数据 的 关键 信息 ， 包 括 源 数据 表 、 对 应 的 数据 仓库 目标 表 
等 属性 。 这 类 表格 通常 称 作 数据 源 对 应 图 ， 因 为 它 反映 了 每 个 从 源 数 
据 到 目标 数据 的 对 应 关系 。 生 成 这 个 表格 的 过 程 就 是 前 面 7.1 节 讨论 的 
逻辑 数据 映射 。 在 本 示例 中 ， 客 户 和 产品 的 源 数据 直接 与 其 数据 仓库 
里 的 目标 表 customer_dim 和 product_dim 表 相对 应 ， 而 销售 订单 事务 表 
是 多 个 数据 仓库 表 的 数据 源 。 


表 8-4 ”销售 订单 数据 源 映射 
文件 名 / 表 名 数据 仓库 中 的 目标 表 


AW MySQL # customer customer dim 


产品 | MySQL 表 | product | product dim 
销售 订单 MySQL 表 sales order order dim, sales order fact 


标识 出 了 数据 源 ， 现 在 要 考虑 维度 历史 的 处 理 。 大 多 数 维度 值 是 
随 着 时 间 改 变 的 ， 如 客户 改变 了 姓名 ， 产 品 的 名 称 或 分 类 变化 等 。 当 
一 个 维度 改变 ， 比 如 当 一 个 产品 有 了 新 的 分 类 时 ， 有 必要 记录 维度 的 
历史 变化 信息 。 在 这 种 情况 下 ，product_dim 表 里 必须 既 存 储 产 品 老 的 
分 类 ， 也 存储 产品 当前 的 分 类 。 并 且 ， 老 的 销售 订单 里 的 产品 引用 老 
的 分 类 。 渐 变 维 (SCD) 即 是 一 种 在 多 维 数据 仓库 中 实现 维度 历史 的 
技术 。 有 三 种 不 同 的 SCD 技 术 : SCD 类 型 1 (SCD1) ，SCD 类 型 2 
(SCD2) ，SCD 类 型 3 (SCD3) 。 


。 SCD1: 通过 更 新 维度 记录 直接 覆盖 已 存在 的 值 ， 它 不 维护 记录 
的 历史 。SCD1 一 般 用 于 修改 错误 的 数据 。 

SCD2: 在 源 数 据 发 生变 化 时 ， 给 维度 记录 建立 一 个 新 的 “版 本 ” 
记录 ， 从 而 维护 维度 历史 。SCD2 不 删除 、 修 改 已 存在 的 数据 。 
SCD3: 通常 用 作 保 持 维 度 记录 的 几 个 版 本 。 它 通过 给 某 个 数据 
单元 增加 多 个 列 来 维护 历史 。 例 如 ， 为 了 记录 客户 地 址 的 变 
化 customer dim 维度 表 有 一 个 customer_address 列 和 一 个 
previous_customer_address 列 ， 分 别 记录 当前 和 上 一 个 版 本 的 地 
址 。SCD3 可 以 有 效 维护 有 限 的 历史 ， 而 不 像 SCD2 那 样 保存 全 
部 历史 。SCD3 很 少 使 用 。 它 只 适用 于 数据 的 存储 空间 不 足 并 且 
用 户 接受 有 限 维度 历史 的 情况 。 


同一 维度 表 中 的 不 同 字段 可 以 有 不 同 的 变化 处 理 方式 。 在 本 示例 
中 ， 客 户 维度 历史 的 客户 名 称 使 用 SCD1， 客 户 地 址 使 用 SCD2， 产 品 
维度 的 两 个 属性 ， 产 品名 称 和 产品 类 型 都 使 用 SCD2 保 存 历史 变 化 数 
据 。 


多 维 数据 仓库 中 的 维度 表 和 事实 表 一 般 都 需要 有 一 个 代理 键 ， 作 
为 这 些 表 的 主键 ， 代 理 键 一 般 由 单列 的 自 增 数 字 序 列 构成 。Hive 没 有 
关系 数据 库 中 的 自 增 列 ， 但 它 也 有 一 些 对 自 增 序列 的 支持 ， 通 常 有 两 


种 方法 生成 代理 键 : 使 用 row_number() 窗 口水 数 或 者 使 用 一 个 名 为 
UDFRowSequence 的 用 户 自 定义 函数 (UDF) o 


假设 有 维度 表 tbl_dim 和 过 渡 表 tbl_stg， 现 在 要 将 tbl_stg 的 数据 法 
到 jtbl_dim ， 装 载 的 同时 生成 维度 表 的 代理 键 。 


。 FHrow numberQERZ ^E py [618 Be 


insert into 


tbl dim 
select row number() 


over (order by 


tbl stg.id) + t2.sk max, tbl stg.* 
from 


tbl stg 
cross join 


(select coalesce(max( 
sk),0) sk max from 


tbl dim) t2; 


上 面 语 句 中 ， 先 查询 维度 表 中 已 有 记录 最 大 的 代理 键 值 ， 如 果 维 
度 表 中 还 没有 记录 ， 利 用 coalesce 了 图 数 返 回 0。 然 后 使 用 cross join 连接 
生成 过 渡 表 和 最 大 代理 键 值 的 和 昔 卡 尔 集 ， 最 后 使 用 row_number0O 国 数 
生成 行 号 ， 并 将 行 号 与 最 大 代理 键 值 相 加 的 值 ， 作 为 新 装载 记录 的 代 
理 键 。 


。 用 UDFRowSequence 生 成 代理 键 


add 


jar hdfs:///user/hive-contrib-2.0.0.jar; 
create temporary function 


row sequence as 


'org.apache.hadoop.hive.contrib.udf.udfrowsequence'; 
insert into 


tbl dim 
select 


row sequence() + t2.sk max, tbl stg.* 
from 


tbl stg 
cross join (select coalesce(max( 


sk),0) sk max from 


tbl dim) t2; 


hive-contrib-2.0.0.jar 中 包含 一 个 生成 记录 序号 的 自 定 义 函 数 
udfrowsequenceo 上 面 的 语句 先 加 载 JAR 包 ， 然 后 创建 一 个 名 为 
row_sequence(0) 的 临时 加 数 作为 调用 UDF 的 接口 ， 这 样 可 以 为 查询 的 结 
果 集 生成 一 个 自 增 伪 列 。 之 后 就 和 row_number0O 写 法 类 似 了 ， 只 不 过 
将 窗口 函数 row_number0 蔡 换 为 row_sequence0O 了 数 。 


因为 窗口 函数 的 方法 比较 通用 ， 而 且 无 须 引 入 额外 的 JAR 包 ， 所 
以 我 们 在 示例 中 使 用 row_number() 遂 数 生成 代理 键 。 


现在 可 以 编写 用 于 初始 装载 的 脚本 了 。 假 设 数据 仓库 从 2016 年 7 月 
4 日 开始 使 用 ， 用 户 希 望 装载 所 有 的 历史 数据 。 我 们 建立 一 个 名 为 
init_etl.sh 的 shell 脚 本 用 于 完成 初始 装载 过 程 ， 该 脚本 先 使 用 Sqoop 抽 取 
源 库 的 数据 ， 然 后 调用 一 个 名 为 init_etl.sql 的 HiveQL 脚 本 执行 数据 装 
载 ，init_etl.sh 的 内 容 如 下 : 


#!/bin/bash 


4 建立 Sqoop 增 量 导 入 作业 ， 以 order_number 作 为 检查 列 ， 初 始 的 last -value 
是 0 

sqoop job --delete myjob incremental import 

sqoop job --create myjob incremental import \ 

-- \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order number, customer number, product code, 
order date, entry date, order amount" 

\ 

--hive-import \ 

--hive-table rds.sales_order \ 

--incremental append \ 

--check-column order number 和 

--last-value 0 

# 首次 抽取 ， 将 全 部 数据 导入 RDS 库 

sqoop import --connect jdbc:mysq1://cdh1:3306/source? 
useSSL-false --username root --password 

mypassword --table customer --hive-import --hive-table 
rds.customer --hive-overwrite 

sqoop import --connect jdbc:mysql://cdh1:3306/source? 
useSSL-false --username root --password 

mypassword --table product --hive-import --hive-table 
rds.product --hive-overwrite 

beeline -u jdbc:hive2://cdh2:10000/dw -e "TRUNCATE TABLE 
rds.sales order" 

# 执行 增 量 导入 ， 因 为 ]ast -value 初 始 值 为 0， 所 以 此 次 会 导入 全 部 数据 
sqoop job --exec myjob incremental import 

# 调用 init_et1.sql 文 件 执行 初始 装载 

beeline -u jdbc:hive2://cdh2:10000/dw -f init etl.sql 


ft init etlsh 文件 的 开头 建立 了 一 个 名 为 
myjob_incremental_import、 用 于 增 量 抽 取 数 据 的 Sqoop 作 业 。 把 建立 
Sqoop 作 业 的 命令 放 到 初始 脚本 中 的 好 处 是 ， 人 允许 多 次 运行 这 个 脚本 
文件 ， 实 现 究 等 操作 。 这 个 Sgoop 作 业 和 上 一 章 中 测试 增 量 抽取 时 建 
立 的 myjob_1 作 业 有 三 点 区 别 。 首 先 我 们 并 没有 加 --where "entry. date < 
current_date0" 这 个 参数 。 之 所 以 这 样 做 ， 是 为 了 避免 将 严格 过 滤 前 一 
天 数据 的 逻辑 放 到 抽取 过 程 中 。 增 量 抽 取 只 需要 将 所 有 的 新 增 数 据 闭 


到 过 渡 区 中 即 可 ， 严 格 过 滤 前 一 天 数据 的 逻辑 放 到 Hive 中 执行 。 在 
后 面 的 HiveQL 脚 本 中 将 看 到 ， 我 们 是 使 用 where 过 滤 条 件 实现 这 个 逻 
辑 的 。 其 次 ， 这 回 使 用 --check-column order_number， 将 订单 号 而 不 是 
时 间 戳 作为 检查 列 。 在 MySQL 的 源 库 中 ，order_number 列 是 自 增 主 
键 ， 并 且 假 设 订 单数 据 是 不 会 删除 的 ， 因 此 是 可 以 用 该 列 检 查 到 新 增 
数据 的 。 最 后 是 使 用 --last-value 0， 将 初始 检查 值 设置 为 0。 由 于 源 数 
据 的 订单 号 都 会 大 于 0， 因 此 首次 执行 将 抽取 全 部 销售 订单 数据 。 


建立 增 量 导 入 作业 后 ， 执 行 三 个 sqoop 命 令 ， 前 两 个 全 量 抽取 客户 
和 产品 数据 ， 它 们 将 会 用 源 数 据 全 部 覆盖 rds 库 中 的 customer 和 product 
表 ， 第 三 个 执行 增 量 抽取 作业 ， 装 载 rds.sales_order 表 的 数据 ， 在 此 之 
前 先 用 beeline 命 令 行 清空 rds.sales_order 表 ， 也 是 为 了 能 够 重复 执行 脚 
本 但 不 重复 装载 数据 。 


前 面 的 操作 是 初始 数据 抽取 ， 将 源 数据 导入 到 过 渡 区 数据 库 。 脚 
本 中 最 后 一 条 语句 是 调用 init_etl.sql 文 件 执行 数据 仓库 的 表 装 载 。 该 文 
件 中 的 HiveQL 脚 本 如 下 : 


USe 


dw; 
EA 
- E 


truncate table 


customer_dim; 
truncate table 


product_dim; 
truncate table 


order_dim; 
truncate table 


sales order fact; 
-- 装载 客户 维度 表 


insert into 


customer dim 
select 


row number () 
over (order by 


ti.customer number) + t2.sk max, 

ti.customer number, ti.customer name, 
ti.customer street address, 

ti.customer zip code, ti.customer city, ti.customer state, 
'2016-03-01', '2200-01-01' 
from 


rds.customer t1 
cross join (select coalesce(max 


(customer sk),0) sk max 
from 


customer dim) t2; 

-- 装载 产品 维度 表 
insert into 

product dim 
select 
row number () 

over (order by 

ti.product code) + t2.sk max, 

product code, product name, product category, 1, 
'2016-03-01', '2200-01-01' 


from 


rds.product t1 
cross join 


(select coalesce(max 


(product sk),0) sk max 
from 


product dim) t2; 


1, 


-- 装载 订单 维度 表 


insert into 

order_dim 
select 

row_number() 

over (order by 

t1.order_number) + t2.sk max, 
order number, 1, order date, '2200-01-01' 


from 


rds.sales order t1 
cross join 


(select coalesce(max 
(order sk),0) sk max from 
order dim) t2; 

-- 装载 销售 订单 事实 表 
insert into 


sales order fact 
select 


order sk, customer sk, product sk, date sk, order amount 
from 


rds.sales order a, order dim b, customer dim c, 
product dim d, date dim e 
where 


a.order number - b.order number 
and 


a.customer number = c.customer number 
and 


a.product code - d.product code 
and to date 


(a.order date) - e.date 


USe 


说 明 : 
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时 间 粒 度 为 每 天 ， 也 就 是 说 ， 一 天 内 发 生 的 数据 变化 将 被 忽 
略 ， 以 一 天 内 最 后 的 数据 版 本 为 准 。 

使 用 了 窗口 孙 数 row_number0 实 现 生成 代理 键 。 

客户 和 产品 维度 的 生效 日 期 是 2016 年 3 月 1 日 。 装 载 的 销售 订单 
会 早 于 该 日 期 ， 也 就 是 说 ， 不 需要 更 早 的 客户 和 产品 维度 数 
据 。 

订单 维度 的 生效 日 期 显然 就 是 订单 生成 的 日 期 (order_date 字 
ER) 。 为 了 使 所 有 维度 表 具 有 相同 的 粒度 ， 使 用 to_date 国 数 将 
订单 维度 的 生效 日 期 字段 只 保留 到 日 期 ， 忽 略 时 间 部 分 。 
销售 订单 事实 表 的 外 键 列 引用 维度 表 的 代理 键 。 这 里 说 的 外 键 
只 是 逻辑 上 的 外 键 ，Hive 并 不 支持 创建 表 的 物理 主键 或 外 键 。 
date_dim 维 度 表 的 数据 已 经 预 生 成 ， 日 期 从 2000 年 1 月 1 日 到 
2020 年 12 月 31 日 (参见 6.6 节 ) o 


可 以 使 用 下 面 的 查询 验证 初始 装载 的 正确 性 。 


dw; 
select 


order number,customer name,product name,date 


T 
order_amount amount 
from 


sales_order_fact a, customer_dim b, product_dim c, 
order_dim d, date_dim e 
where 


a.customer sk = 
and 


a.product sk - 
and 


a.order sk - 
and 


d.order sk 
a.order date sk - 
order by 


order number; 


8.4 ”定期 装载 


刃 始 装载 只 在 开始 数据 仓库 使 用 前 执行 
a 与 初始 装载 不 同 ， 定 期 装 sa 般 都 
需要 捕获 并 且 记 录 数 据 的 变化 历史 。 本 节 


是 增 量 的 ， 
载 的 步 又， 包括 识别 源 数 据 与 装 
Be LI Eo 


定期 装载 首先 要 识 


b.customer sk 


c.product sk 


e.date sk 


载 类 型 。 表 8-5 汇 总 了 本 示例 的 这 些 信息 。 


说 明 执 行 定 期 装 
志 载 类 型 、 使 用 HiveQL 开 发 和 测试 定期 


别 数据 仓库 的 每 个 事实 表 和 每 个 维度 表 用 到 的 
并 且 是 可 用 的 源 数 据 。 然 后 要 决定 适合 装载 的 抽取 模式 和 维度 历史 装 


表 8-5 ”销售 订单 定期 装载 
数据 源 源 数据 存储 | 数据 仓库 抽取 模式 维度 历史 装载 类 型 
customer customer customer dim 整体 、 拉 取 address 列 上 SCD2, name 列 上 
SCDI 

product product product dim 整体 、 拉 取 所 有 属性 均 为 SCD2 
sales_order sales_order order_dim CDC (FR) s 唯一 订单 号 

拉 取 

sales order fact CDC (FR) 、 N/A 

拉 取 

N/A N/A date dim N/A 预 装载 


本 示例 中 order_dim 维 度 表 和 sales_order fact 事 实 表 使 用 基于 时 间 
稚 的 CDC 装 载 模式 。 为 此 在 rds 库 中 建立 一 个 名 为 cdc_time 的 时 间 鹤 
KR, XARES last load 和 current_load 两 个 字段 。 之 所 以 需要 两 个 字 
段 ， 是 因为 抽取 到 的 数据 可 能 会 多 于 本 次 需要 处 理 的 数据 。 比 如 ， 两 
点 执行 ETL 过 程 ， 则 零点 到 两 点 这 两 个 小 时 的 数据 不 会 在 本 次 处 理 。 
为 了 确定 这 个 截止 时 间 点 ， 需 要 给 时 间 惟 设 定 一 个 上 限 条 件 ， 即 这 里 
的 current load 字段 值 。 本 示例 的 时 间 粒 度 为 每 天 ， 所 以 时 间 戳 只 要 保 
留 日 期 部 分 即 可 ， 因 此 数据 类 型 选 为 date。 这 两 个 字段 的 初始 值 是 “ 初 
始 加 载 " 执 行 日 期 的 前 一 天 ， 本 示例 中 为 '2016-07-04'。 当 开始 装载 时 ， 
current_load 设 置 为 当前 日 期 。 在 开始 定期 装载 实验 前 ， 先 使 用 下 面 的 
脚本 建立 时 间 戳 表 。 


USe 


rds; 
drop table if exists 


cdc time ; 
create table 


cdc time 
( last load date 


, current load date 
); 
set 
hivevar:last load - date add(current date() 


pol); 
insert 


overwrite table 
cdc_time select 


${hivevar:last_load}, ${hivevar:last_load} ; 


在 上 面 的 语句 中 定义 了 一 个 变量 hivevar:last load， 赋 值 当前 日 期 
的 前 一 天 。 向 cdc_time 表 中 插入 初始 数据 时 引用 了 该 变量 。 


使 用 下 面 的 regular_etl.sh shell 脚 本 完成 定期 装载 过 程 。 


#1/bin/bash 


# 整体 拉 取 customer、product 表 数据 

sqoop import --connect jdbc:mysql://cdh1:3306/source? 

useSSL-false --username root --password 

mypassword --table customer --hive-import --hive-table 
rds.customer --hive-overwrite 

sqoop import --connect jdbc:mysq1://cdh1:3306/source? 

useSSL-false --username root --password 

mypassword --table product --hive-import --hive-table 

rds.product --hive-overwrite 


# 执行 增 量 导入 
sqoop job --exec myjob incremental import 
# 调用 regular etl.sqgl 文件 执行 定期 装载 


beeline -u jdbc:hive2://cdh2:10000/dw -f regular etl.sql 
这 个 文件 与 前 面 初始 装载 的 shell 脚 本 基本 相同 ， 只 是 去 掉 了 创建 
Sqoop 作业 和 清空 rds.sales_order 表 的 语句 ， 并 调用 了 一 个 新 的 
regular_etl.sql 文件 ， 该 文件 中 的 HiveQL 脚 本 用 于 装载 维度 表 和 事实 
表 。 因 为 文件 较 长 ， 将 该 文件 分 成 以 下 7 个 部 分 ， 每 一 部 分 分 别 进行 说 
明 。 


1. 设置 支持 事务 的 hive 属 性 


我 们 使 用 的 是 Beeline 命 令 行 ， 因 此 需要 在 客户 端 脚 本 中 添加 设置 
支持 事务 的 set 语 句 。 


- - 设置 变量 以 支持 事务 
set 


hive.support.concurrency-true 


, 
set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.DbTxnManag 
er; 


hive.compactor.initiator.on-true 
, 
set 
hive.compactor.worker.threads-1; 


2. 设置 数据 处 理 时 间 窗 口 


对 于 事实 表 ， 我 们 采用 基于 时 间 戳 的 CDC 增 量 装 载 模式 ， 时 间 粒 
度 为 天 。 因 此 需要 两 个 时 间 点 ， 分 别 是 本 次 装载 的 起 始 时 间 点 和 终止 
时 间 点 ， 这 两 个 时 间 点 定义 了 本 次 处 理 的 时 间 窗 口 ， 即 装载 这 个 时 间 
区 间 内 的 数据 。 还 要 说 明 一 点 ， 这 个 区 间 是 左 包含 的 ， 就 是 处 理 的 数 
据 包括 起 始 时 间 点 ， 但 不 包括 终止 时 间 点 。 这 样 设计 的 原因 是 ， 我 们 
既 要 处 理 完 整 的 数据 ， 不 能 有 遗漏 ， 又 不 能 重复 装载 数据 ， 这 就 要 求 
时 间 处 理 窗 口 既 要 连续 ， 又 不 能 存在 重 杰 的 部 分 。 对 于 维度 表 ， 除 了 
要 求 相 邻 两 个 数据 版 本 的 时 间 段 连续 且 不 重 赤 之 外 ， 为 了 表示 当前 版 
本 的 截止 时 间 ， 还 需要 一 个 很 大 的 时 间 值 ， 大 到 足以 满足 数据 仓库 整 
个 生命 周期 的 需要 ， 本 示例 设置 的 是 2200 年 1 月 1 日 。 


为 此 我 们 在 脚本 中 设置 三 个 变量 ， 分 别 赋予 起 始 时 间 点 、 终 止 时 
间 点 、 最 大 时 间 上 点 的 值 ， 并 且 将 时 间 惟 表 rds.cdc_time 的 last_ load Wl 
current_load 字 段 分 别 设置 为 起 始 时 间 点 和 终止 时 间 点 。 这 些 变量 会 在 
后 面 的 脚本 中 多 次 引用 。 顺 便 提 一 下 ， 这 样 设计 还 有 一 个 好 处 是 ， 如 


果 因为 某 种 原因 需要 手工 执行 一 个 时 间 段 内 的 数据 装载 ， 只 需 改 变 变 
量 的 赋值 ， 而 不 用 修改 脚本 的 执行 逻辑 。 


-- 设置 scd 的 生效 时 间 和 过 期 时 间 
set 


hivevar:cur date = current date() 


i 
set 
hivevar:pre_date = date_add 


(${hivevar:cur_date},-1); 
set 


hivevar:max_date = cast 
('2200-01-01' as date 

); 

-- 设置 cdc 的 上 限时 间 


insert 

overwrite table 

rds.cdc time select 

last load, $(hivevar:cur date) from 


rds.cdc time; 


3. 装载 客户 维度 表 


客户 维度 表 的 customer_street_addresses 字 段 值 变 化 时 采用 SCD2， 
需要 新 增 版 本 ，customer_name 字 段 值 变化 时 采用 SCD1， 直 接 覆 盖 更 
新 。 如 果 一 个 表 的 不 同 字段 有 的 采用 SCD2， 有 的 采用 SCD1， 就 像 客 
户 维 度 表 这 样 ， 那 么 是 先 处 理 SCD2， Ere oe 为 了 回答 
这 个 问题 ， 我 们 看 一 个 简单 的 例子 。 假 设 有 一 个 维度 表 包 含 c1 ，c2、 


c3、c4 四 个 字段 ，c1 是 代理 键 ，c2 是 业务 主键 ，c3 使 用 SCD1，c4 使 用 
SCD2。 源 数据 从 1、2、3 变 为 1、3、4。 如 果 先 处 理 SCD1， 后 处 理 
SCD2， 则 维度 表 的 数据 变化 过 程 是 先 从 1、1、2、3 变 为 1、1、3、3， 
再 新 增 一 条 记录 2、1、3、4。 此 时 表 中 的 两 条 记录 是 1、1、3、3 和 2、 
1、3、4。 如 果 先 处 理 SCD2， 后 处 理 SCD1， 则 数据 的 变化 过 程 是 先 新 
增 一 条 记录 2、1、2、4， 再 把 1、1、2、3 和 2、1、2、4 两 条 记录 变 为 
1、1、3、3 和 2、1、3、4。 可 以 看 出 ,无论 谁 先 谁 后 ， 最 终 的 结果 是 
一 样 的 ， 而 且 结 果 中 都 会 出 现 一 条 实际 上 从 未 存在 过 的 记录 : 1、1、 
3、3。 因 为 SCD1 本 来 就 不 保存 历史 变化 ， 所 以 单 从 c2 字 段 的 角度 看 ， 
任何 版 本 的 记录 值 都 是 正确 的 ， 没 有 差别 。 而 对 于 c3 字 段 ， 每 个 版 本 
的 值 是 不 同 的 ， 需 要 跟踪 所 有 版 本 的 记录 。 我 们 从 这 个 简单 的 例子 可 
以 得 出 以 下 结论 : SCD1 和 SCD2 的 处 理 顺 序 不 同 ， 但 最 终结 果 是 相同 
的 ， 并 且 都 会 产生 实际 不 存在 的 临时 记录 。 因 此 从 功能 上 说 ，SCD1 和 
SCD2 的 处 理 顺 序 并 不 关键 ， 只 需要 记 住 对 SCD1 的 字段 ， 任 意 版 本 的 
值 都 正确 ， 而 SCD2 的 字段 需要 跟踪 所 有 版 本 。 但 在 性 能 上 看 ， 先 处 理 
SCD1 应 该 更 好 些 ， 因 为 更 新 的 数据 行 更 少 。 本 示例 我 们 先 处 理 
SCD2。 


-- 装载 customer 维 度 


- 设置 已 删除 记录 和 customer_street_addresses 列 上 scd2 的 过 期 
update 


customer dim 
set 


expiry date = ${hivevar:pre_date} 
where 


customer dim.customer sk in 


(select 


a.customer sk 


from 
(select 


customer sk,customer number,customer street address 
from 


customer dim where 


expiry date = ${hivevar:max_date}) a left join 


rds.customer b on 


a.customer number = b.customer number 
where 


b.customer number is null or 


a.customer street address «» 


b.customer street address); 


上 面 的 语句 将 老 版 本 的 过 期 时 间 列 从 ‘2200-01-01 更 新 为 执行 装载 
的 前 一 天 。 内 层 的 查询 获取 所 有 当前 版 本 的 数据 。 外 层 查 询 使 用 一 
左 外 连接 查询 出 地 址 列 发 生变 化 的 记录 的 代理 键 ， 然 后 在 update 语 句 
的 where 子 句 中 用 IN 操作 符 ， 更 新 这 些 记 录 的 过 期 时 间 列 。left join 的 
逻辑 查询 处 理 顺 序 是 : 

(1) 执行 a 和 b 两 个 表 的 笛 卡 尔 积 。 

(2) 应 用 on 过 滤器 : on acustomer number = 
b.customer numbers 

(3) 添加 外 部 行 : a 为 保留 表 ， 将 不 满足 on 条 件 的 a 表 记录 添加 到 
结果 集中 。 

(4) 应 用 where 过 滤器 : where b.customer number is null or 


a.customer street address <>  b.customer street address , H m 


b.customer number is null 过 滤 出 源 数据 中 已 经 删除 但 维度 表 还 存在 的 


记录 ，a.customer street address <> b.customer street address 过 滤 出 源 


数据 修改 了 地 址 信息 I^ 的 记录 。 


HiveQL 的 Select 查询 语句 支持 内 连接 、 外 连接 、 笛 卡尔 连接 等 各 
种 连接 方式 ， 也 支持 艇 套子 查询 ， 并 提供 了 非常 丰 昌 的 门 建 阔 数 。 总 
之 ，Hive 对 select 语 句 的 支持 比较 完善 ， 这 点 上 已 经 和 传统 关系 数据 库 
的 SQL 非常 相似 了 。 表 8-6 总 结 了 各 种 数据 库 表 的 连接 方式 。 


eo 数据库 查 询 中 的 连接 


内 连接 只 返回 匹配 的 行 select A.cl,B.c2 from A join B on 
A.c3 = B.c3; 


左 外 连接 含 左边 表 的 全 部 行 〈 不 管 右边 的 表 中 是 否 存 在 | select A.cl,B.c2 from A left join B 
;它们 匹配 的 行 ) 以 及 右边 表 中 全 部 匹配 的 生 on A.c3 = B.c3; 


右 外 连接 包含 右边 表 的 全 部 行 〈 不 管 左 边 的 表 中 是 否 存在 | select A.cl,B.c2 from A right join 


ij 它 们 匹配 的 行 ) 以 及 左边 表 中 全 部 匹配 的 行 B on A.c3 = B.c3; 

包含 左 、 右 两 个 表 的 全 部 行 ， 不 管 在 另 一 边 的 表 | select A.cl,B.c2 from A full join B 
中 是 否 ;存在 与 它们 匹配 的 行 on A.c3 = B.c3; 

使 用 等 值 以 外 的 条 件 来 匹配 左 、 右 两 个 表 中 的 行 select A.cl,B.c2 from A join B on 
A.c3 !- B.c3; 

生成 笛 卡 尔 积 ， 它 不 使 用 任何 匹配 或 者 选取 条 | select A.cl,B.c2 from A,B; 

件 ， 而 是 直接 将 一 个 数据 源 中 的 每 个 行 与 男 一 个 
数据 源 的 每 个 行 一 一 匹配 


-- 处 理 customer_street_addresses 列 上 scd2 的 新 增 行 
insert into 


customer dim 
select 


row number() 
over (order by 


ti.customer number) + t2.sk max, 
ti.customer number, 
ti.customer name, 
ti.customer street address, 
ti.customer zip code, 


ti.customer city, 

ti.customer state, 

ti.version, 

ti.effective_date, 

t1.expiry_date 
from 


t2.customer_number customer_number, 
t2.customer_name customer_name, 
t2.customer_street_address customer_street_address, 
t2.customer_zip_code, 
t2.customer_city, 
t2.customer_state, 
ti.version + 1 version, 
${hivevar:pre_date} effective_date, 
$(hivevar:max date) expiry date 

from 


customer dim t1 
inner join 


rds.customer t2 
on 


ti.customer number = t2.customer number 
and 


ti.expiry date = $(hivevar:pre date? 
left join 


customer dim t3 
on 


ti.customer number = t3.customer number 
and 


t3.expiry date = $(hivevar:max date? 
where 


ti.customer street address <> 


t2.customer street address and 
t3.customer sk is null 


) t1 
cross join 


(select coalesce (max 
(customer sk),0) sk max from 


customer dim) t2; 


上 面 这 条 语句 插入 SCD2 的 新 增 版 本 行 。 子 查询 中 用 inner join 获取 
当期 版 本 号 和 源 数 据 信息 。left join 连接 是 必要 的 ， 否 则 如 果 多 次 执行 
该 语句 ， 会 生成 多 条 重复 的 记录 。 最 后 用 row_number() 方 法 生成 新 记 
录 的 代理 键 。 新 记录 的 版 本 号 加 1， 开 始 日 期 为 执行 时 的 前 一 天 ， 过 期 
日 期 为 “2200-01-01”。 


-- 处 理 customer_name 列 上 的 scd1 
-- 因为 scd1 本 身 就 不 保存 历史 数据 ， 所 以 这 里 更 新 维度 表 里 的 


-- 所 有 customer_name 改 变 的 记录 ， 而 不 是 仅仅 更 新 当前 版 本 的 记录 
drop table if exists 


tmp; 
create table 


tmp as 
select 


.Customer sk, 

.Customer number, 
.customer name, 
.Customer street address, 
.Customer zip code, 
.customer city, 

.cCustomer state, 
.version, 


veo o 9D OD D 


a.effective date, 
a.expiry date 
from 


customer dim a, rds.customer b 
where 


a.customer number - b.customer number and 
(a.customer name «» 


b.customer name); 
delete from 


customer dim where 


customer dim.customer sk in (select 
customer sk from 


tmp); 
insert into 


customer dim select * from 
tmp; 


上 面 的 语句 处 理 SCD1。 在 关系 数据 库 中 ，SCD1 非 常 好 处 理 ， 如 
在 MySQL 中 使 用 类 似 如 下 的 语句 即 可 : 


update customer dim a, customer stg b set a.customer name 


b.customer name 
where a.customer number - b.customer number 


and a.customer name «» b.customer name ; 


但 是 hive 里 不 能 在 update 后 跟 多 个 表 ， 也 不 支持 在 set 子 句 中 使 用 子 
查询 ， 它 只 支持 SET column = value 的 形式 ， 其 中 value 只 能 是 一 个 具体 
的 值 或 者 是 一 个 标量 表达 式 。 所 以 这 里 使 用 了 一 个 临时 表 存 储 需 要 更 
新 的 记录 ， 然 后 将 维度 表 和 这 个 临时 表 关 联 ， 用 先 delete 再 用 insert 代 
替 update。 为 简单 起 见 也 不 考虑 并 发 问题 (典型 数据 仓库 应 用 的 并 发 
操作 基本 都 是 只 读 的 ， 很 少 并 发 写 ， 而 且 ETL 通 常 是 一 个 单独 在 后 台 


运行 的 程序 ， 如 果 用 SQL 实现 ， 并 不 存在 并 发 执行 的 情况 ， 所 以 并 发 
导致 的 问题 并 不 像 OLTP 那 样 严 重 ) 。 


-- 处 理 新 增 的 customer 记 录 
insert into 


customer dim 
select 


row number () 
over (order by 


ti.customer number) + t2.sk max, 
ti.customer number, 
ti.customer name, 
ti.customer street address, 
ti.customer zip code, 
ti.customer city, 
ti.customer state, 


$(hivevar:pre date], 


$(hivevar:max date? 
from 


select 

t1.* from 

rds.customer t1 left join 
customer dim t2 on 
ti.customer number = 
t2.customer number 

where 


t2.customer sk is null 


\ ti 
cross join 


(select coalesce(max 
(customer sk),0) sk max from 


customer dim) t2; 


上 面 的 语句 装载 新 增 的 客户 记录 。 内 层 子 查询 使 用 rds.customer 和 和 
dw.customer_dim 的 左 外 链接 获取 新 增 的 数据 。 新 数据 的 版 本 号 为 1， 
开始 日 期 为 执行 时 的 前 一 天 ， 过 期 日 期 为 “2200-01-01”。 同 样 使 用 
row_number() 方 法 生成 代理 键 。 到 这 里 ， 客 户 维度 表 的 装载 处 理 代码 
已 完成 。 


4. 装载 产品 维度 表 
产品 维度 表 的 所 有 属性 都 使 用 SCD2， 处 理 方 法 和 客户 表 类 似 。 


-- 装载 product 维 度 


-- 设置 已 删除 记录 和 product_name、product_category 列 上 scd2 的 过 期 
Update 


product dim 
set 


expiry date = ${hivevar:pre_date} 
where 


product dim.product sk in 


(select 


a.product sk 
from 


(select 


product sk,product code,product name,product category 
from 


product_dim where 


expiry date = ${hivevar:max_date}) a left join 


rds.product b on 


a.product_code = b.product_code 
where 


b.product_code is null or 
(a.product_name <> 


b.product_name or 


a.product category <> b.product category)); 


-- 处 理 product_name、product_category 列 上 scd2 的 新 增 行 
Insert Into 


product dim 
select 


row number () 
over (order by 


ti.product code) + t2.sk max, 

ti.product code, 
ti.product name, 
ti.product category, 
t1.version, 
ti.effective date, 
til.expiry date 

from 


( 


select 


t2.product code product code, 
t2.product name product name, 
t2.product category product category, 


ti.version + 1 version, 

$(hivevar:pre date) effective date, 

$(hivevar:max date) expiry date 
from 


product dim t1 
inner join 


rds.product t2 
on 


ti.product code = t2.product code 
and 


ti.expiry date = $(hivevar:pre date? 
left join 


product dim t3 
on 


ti.product code = t3.product code 
and 


t3.expiry date = ${hivevar:max_date} 
where 


(ti.product name <> 
t2.product name or 
ti.product category <> 


t2.product category) and 


t3.product sk is null 

sos 

cross join 

(select coalesce(max 
(product sk),0) sk max from 


product dim) t2; 


-- 处 理 新 增 的 product 记录 
insert into 


product dim 
select 

row number () 

over (order by 

ti.product code) + t2.sk max, 
ti.product code, 
ti.product name, 
ti.product category, 
1, 
$(hivevar:pre date), 


$(hivevar:max date) 
from 


select 
t1.* from 
rds.product t1 left join 
product dim t2 on 


ti.product code = t2.product code 
where 


t2.product sk is null 
j l 
cross join 
(select coalesce (max 
(product sk),0) sk max from 


product dim) t2; 


5. 装载 订单 维度 表 


订单 维度 表 的 装载 比较 简单 ， 因 为 不 涉及 维度 历史 变化 ， 只 要 将 
新 增 的 订单 号 插入 rds.order_dim 表 就 可 以 了 。 


-- 装载 order 维 度 


insert into 


order dim 
select 


row number ( ) 
over (order by 


ti.order number) + t2.sk max, 
ti.order number, 
t1.version, 
ti.effective date, 
ti.expiry date 

from 


( 


select 


order number order number, 

1 version, 

order date effective date, 

'2200-01-01' expiry date 
from 


rds.sales order, rds.cdc time 
where 


entry date »- last load and 
entry date < current load ) t1 
cross join 

(select coalesce(max 


(order sk),0) sk max from 


order dim) t2; 
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>= last_load AND entry. date < current_load 条 件 过 滤 出 上 次 执行 定期 
载 的 日 期 到 当前 日 期 之 间 的 所 有 销售 订单 ， £80 Slorder dime, 


6. 装载 销售 订单 事实 表 


- - 装载 销售 订单 事实 表 


insert into 


sales order fact 
select 


order sk, 
customer sk, 
product sk, 


date sk, 
order amount 
from 


rds.sales order a, 

order dim b, 

customer dim c, 

product dim d, 

date dim e, 

rds.cdc time f 
where 


a.order number - b.order number 
and 


a.customer number = c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date < c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and 
a.entry date »- f.last load and 


a.entry date « f.current load ; 


7J f 3& Sdw.sales order fact 事实 表 ， 需 要 关联 rds.sales_order 与 dw 
库 中 的 四 个 维度 表 ， 获 取 维 度 表 的 代理 键 和 源 数据 的 度量 值 。 这 里 只 
有 销售 金额 字段 order_amount 一 个 度量 。 和 订单 维度 一 样 ， 也 要 关联 
时 间 戳 表 ， 获 取 时 间 窗 口 作 为 确定 新 增 数 据 的 过 滤 条 件 。 


7. 更 新 数据 处 理 时 间 窗 口 


最 后 更 新 时 间 惟 表 的 数据 ， 将 最 后 装载 时 间 改 为 当前 日 期 。 


-- 更 新 时 间 惟 表 的 last_1oad 字 段 


insert 

overwrite table 

rds.cdc time select 

current load, current load from 


rds.cdc time; 


将 以 上 7 步 里 的 HiveQL 语 名 合并， 就 是 regular_etl.sq] 文 件 的 全 部 内 
容 。 现 在 我 们 销售 订单 示例 的 定期 数据 装载 开发 已 经 完成 ， 下 面 进 行 
一 些 测试 ， 验 证 一 下 数据 的 正确 性 。 


测试 步骤 如 下 : 


$014 在 MySQL 的 source 源 数据 库 中 准备 客户 、 产 品 和 销售 订单 
测试 效 掘 。 


USe 


source; 


/*** 客户 数据 的 改变 如 下 : 

客户 6 的 街道 号 改 为 7777 ritter rd. (原来 是 7070 ritter rd) 

客户 7 的 姓名 改 为 distinguished agencies. (原来 是 distinguished 
partners) 

新 增 第 8 个 客户 。 

mE 

update 

customer set 


customer street address - '7777 ritter rd.' where 


customer number - 6 ; 
update 


customer set 
customer name = 'distinguished agencies' where 


customer number - 7 ; 
insert into 


customer (customer name, customer street address, 
customer zip. code, 

customer city, customer state) 
values 


('subsidiaries', '10000 wetline blvd.', 17055, 'pittsburgh', 


pa ) ; 


/*** 产品 数据 的 改变 如 下 : 

产品 3 的 名 称 改 为 flat panel. (原来 是 lcd panel) 
新 增 第 四 个 产品 。 

EA 

update 

product set 


product name - 'flat panel' where 


product code 
insert into 


3; 
product (product name, product category) 
values 


('keyboard', 'peripheral') ; 


/*** 新 增订 单 日 期 为 2016 年 7 月 4 日 的 16 条 订单 。 ***/ 
set 


Qstart date := unix timestamp('2016-07-04'); 
set 


Qend date :- unix timestamp('2016-07-05'); 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 


sales order where 


set 
Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount := floor(1000 + rand() 


* 9000); 
insert into temp sales order data values 


(101, 1, 1, Qorder date, Qorder date, Qamount); 


共 插 入 16 条 数据 ..， 
insert into 


sales order 
select null 


,customer number,product code,order date,entry date,order amo 
unt from 


temp sales order data order by 
order date; 


commit 


502 执行 regular_etl.sh 脚 本 进行 定期 装载 。 


./regular etl.sh 


步骤 03 4 ”验证 结果 。 


USe 


dw; 
select * from 


customer dim; 


查询 的 部 分 结果 如 下 : 


6 6 loyal clients 7070 Ritter Rd. 17055 Pittsburgh PA 1 
2016-03-01 2016-07-04 


8 6 loyal clients 7777 Ritter Rd. 17055 Pittsburgh PA 2 
2016-07-04 2200-01-01 
7 it Distinguished Agencies 9999 Scott St. 17050 Mechanicsburg PA 1 
2016-03-01 2200-01-01 
9 8 Subsidiaries 10000 wetline blvd. 17055 Pittsburgh PA 1 
2016-07-04 2200-01-01 


可 以 看 到 ， 客 户 6 因为 地 址 变更 新 增 了 一 个 版 本 ， 而 客户 7 的 姓名 
变更 直接 覆盖 了 原来 的 值 ， 新 增 了 客户 8。 注 意 客 户 6 第 一 个 版 本 的 到 
期 日 期 和 第 二 个 版 本 的 生效 日 期 同 为 "2016-07-042， 这 是 因为 任何 一 
个 SCD 的 有 效 期 是 一 个 “ 左 闭 右 开 ”的 区 间 ， 以 客户 6 为 例 ， 其 第 一 个 版 
本 的 有 效 期 大 于 等 于 “2016-03-01”， 小 于 “2016-07-04”， 即 为 “2016-03- 
01” 到 “2016-07-03”。 


select * from 


product_dim; 
查询 的 部 分 结果 如 下 : 


3 3 LCD Panel Monitor 1 2016-03-01 2016-07-04 


4 3 Flat Panel Monitor 2 2016-07-04 2200-01-01 
5 4 KeyboardPeripheral 1 2016-07-04 2200-01-01 


可 以 看 到 ， 产 品 3 的 名 称 变更 使 用 SCD2 增 加 了 一 个 版 本 ， 新 增 了 
产品 4 的 记录 。 


select * from 


order dim; 


查询 的 部 分 结果 如 下 : 


LIT Tg 


于 2016-07-04 2200-01-01 
W2 112 1 2016-07-04 2200-01-01 
113 113 1 2016-07-04 2200-01-01 
114 114 T 2016-07-04 2200-01-01 
115 115 1 2016-07-04 2200-01-01 
116 116 ii 2016-07-04 2200-01-01 


116 rows selected (0.237 seconds) 


现在 有 116 个 订单 ，100 个 是 “初始 导入 ”装载 的 ，16 个 是 本 次 定期 


PALA o 


select * from 


sales_order_fact; 


查询 的 部 分 结果 如 下 : 


8 2 6030 3616 
111 9 5 6030 8046 
112 i 4 6030 4978 
113 4 5 6030 7454 
114 4 5 6030 7325 
TES 5 1 6030 5081 
116 5 2 6030 8391 


116 rows selected (0.196 seconds) 


可 以 看 到 ，2017 年 7 月 4 日 的 16 个 销售 订单 被 添加 ， 
是 4 而 不 是 3， 客 户 6 的 代理 键 是 8 而 不 是 6。 


select * from 


rds.cdc time; 


查询 结果 如 下 : 


cdc time.last load cdc time.current load 
2016-07-05 2016-07-05 
1 rows selected (0.165 seconds) 


可 以 看 到 ， 两 个 字段 值 都 已 更 新 为 当前 日 期 。 


产品 3 的 代理 键 


以 上 示例 说 明了 如 何 用 Sqoop 和 HiveQL 实 现 初 始 装载 和 定期 装 
载 。 需 要 指出 的 一 点 是 ， 就 本 示例 的 环境 和 数据 量 而 言 装载 执行 速度 
很 慢 ， 一 次 定期 装载 就 需要 二 十 多 分 钟 ， 比 关系 数据 库 慢 多 了 。 但 考 
虑 到 Hive 本 身 就 只 适合 大 数据 量 的 批 处 理 任务 ， 再 加 上 Hive 的 性 能 问 
题 一 直 就 被 广 病 ， 也 就 不 必 再 吐槽 了 。 至 此 ，ETL 过 程 已 经 实现 ， 下 
一 章 将 介绍 如 何 定期 自动 执行 这 个 过 程 。 


85 Hive 优 化 


Hive 的 执行 依赖 于 底层 的 MapReduce 作 业 ， 因 此 对 Hadoop 作 业 的 
优化 或 者 对 MapReduce 作 业 的 调整 是 提高 Hive 性 能 的 基础 。 大 多 数 情 
况 下 ， 用 户 不 需要 了 解 Hive 内 部 是 如 何 工 作 的 。 但 是 当 对 Hive 具 有 越 
来 越 多 的 经 验 后 ， 学 习 一 些 Hive 的 底层 实现 细节 和 优化 知识 ， 会 让 用 
户 更 加 高 效 地 使 用 Hive。 如 果 没 有 适当 的 调整 ， 那 么 即使 查询 Hive 中 
的 一 个 小 表 ， 有 时 也 会 耗 时 数 分 钟 才 得 到 结果 。 也 正 是 因为 这 个 原 
因 ，Hive 对 于 OLAP 类 型 的 应 用 有 很 大 的 局 限 性 ， 它 不 适合 需要 立即 
返回 查询 结果 的 场景 。 然 而 ， 通 过 实施 下 面 一 系列 的 调 优 方法 ，Hive 
查询 的 性 能 会 有 大 幅 提 高 。 


1. 启用 压缩 


压缩 可 以 使 磁盘 上 存储 的 数据 量变 小 ， 例 如 ， 文 本 文件 格式 能 够 
压缩 40% 甚 至 更 高 比例 ， 这 样 可 以 通过 降低 VO 来 提高 查询 速度 。 除 非 
产生 的 数据 用 于 外 部 系统 ， 或 者 存在 格式 兼容 性 问题 ， 建 议 总 是 启用 
压缩 。 讨 缩 与 解 讨 缩 会 消耗 CPU 资源 ， 但 Hive 产 生 的 MadReduce 作 业 
往往 是 IO 密集 型 的 ， 因 此 CPU 开销 通常 不 是 问题 。 

为 了 启用 压缩 ， 需 要 查 出 所 使 用 的 Hive 版 本 支持 的 压缩 编码 方 
式 ， 下 面 的 set 命 令 列 出 可 用 的 编 解 码 器 (CDH 5.7.0 中 的 Hive) o 


hive» set io.compression.codecs; 
io.compression.codecs-org.apache.hadoop.io.compress.DefaultCo 
dec,org.apache.hadoop.io.compres 
s.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apac 
he.hadoop.io.compress.DeflateCod 
ec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoo 
p.io.compress.Lz4Codec 

hive> 


一 个 复杂 的 Hive 查 询 在 提交 后 ， 通 常 被 转换 为 一 系列 中 间 阶 段 的 
MapReduce 作 业 ，Hive 引 擎 将 这 些 作业 串 联 起 来 完成 整个 查询 。 可 以 
将 这 些 中 间 数 据 进行 压缩 。 这 里 所 说 的 中 间 数 据 指 的 是 上 一 个 
MapReduce 作 业 的 输出 ， 这 些 输出 将 被 下 一 个 MapReduce 作 业 作 为 输 
入 数据 人 使用。 我 们 可 以 在 hive-sitexzml 文件 中 设置 
hive.exec.compress.intermediate 属 性 以 局 用 中 间 数 据 压缩 。 


«property» 

<name>hive.exec.compress.intermediate</name> 
<value>true</value> 

<description> This controls whether intermediate files 
produced by Hive between 

multiple map-reduce jobs are compressed. The compression 
codec and other options 

are determined from hadoop config variables 
mapred.output.compress* </description> 

</property> 

<property> 
<name>hive.intermediate.compression.codec</name> 
<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
<description/> 

</property> 

<property> 
<name>hive.intermediate.compression.type</name> 
<value>BLOCK</value> 

<description/> 

</property> 


也 可 以 在 Hive 客 户 端 中 使 用 set 命 令 设置 这 些 属性 。 


hive» set hive.exec.compress.intermediate-true; 

hive» set 
hive.intermediate.compression.codec-org.apache.hadoop.io.comp 
ress.SnappyCodec; 

hive» set hive.intermediate.compression.type-BLOCK; 

hive» 


当 Hive 将 输出 写 入 到 表 中 时 ， 输 出 内 容 同样 可 以 进行 压缩 。 我 们 


可 以 设置 hive.exec.compress.output 属 性 启用 最 终 输出 压缩 。 


PA 
H 


«property» 

<name>hive.exec.compress.output</name> 
<value>true</value> 

<description> This controls whether the final outputs of a 
query 

(to a local/hdfs file or a Hive table) is compressed. The 
compression 

codec and other options are determined from hadoop config 
variables 

mapred.output.compress* </description> 

</property> 


或 者 


hive» set hive.exec.compress.output-true; 

hive» set mapreduce.output.fileoutputformat.compress-true; 
hive» set 
mapreduce.output.fileoutputformat.compress.codec-org.apache.h 
adoop.io.compress.SnappyCodec; 

hive» set 
mapreduce.output.fileoutputformat.compress.type-BLOCK; 

hive» 


2。 优 化 连接 


可 以 通过 配置 Map 连 接 和 倾斜 连接 的 相关 属性 提升 连接 碍 询 的 性 


b 
bo 


(1) 自动 Map 连 接 


当 连 接 一 个 大 表 和 一 个 小 表 时 ， 上 自动 Map 连 接 是 一 个 非常 有 用 的 
特性 。 如 果 局 用 了 该 特性 ， 小 表 将 保存 在 每 个 节 点 的 本 地 缓存 中 ， 并 
在 Map 阶 段 与 大 表 进 行 连接 。 开 启 自动 Map 连 接 提供 了 两 个 好 处 。 首 
先 ， 将 小 表 装 进 缓存 将 节省 每 个 数据 节点 上 的 读 取 时 间 。 其 次 ， 它 避 
免 了 Hive 碍 询 中 的 倾斜 连接 ， 因 为 每 个 数据 块 的 连接 操作 已 经 在 Map 
阶段 完成 了 。 设 置 下 面 的 属性 启用 自动 Map 连 接 属性 。 


<property> 
<name>hive.auto.convert.join</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.auto.convert.join.noconditionaltask</name> 
<value>true</value> 

</property> 

<property> 


<name>hive.auto.convert.join.noconditionaltask.size</name> 
<value>10000000</value> 

</property> 

<property> 
<name>hive.auto.convert.join.use.nonstaged</name> 
<value>true</value> 

</property> 


说 明 : 


。hive.auto.convert.join : 是 否 启 用 基于 输入 文件 的 大 小 ， 将 普通 
连接 转化 为 Map 连 接 的 优化 机 制 。 

。 hive.auto.convert.join.noconditionaltask: 是 否 启 用 基于 输入 文件 
的 大 小 ， 将 普通 连接 转化 为 Map 连 接 的 优化 机 制 。 假 设 参 与 连 
接 的 表 (或 分 区 ) 有 N 个 ， 如 果 打 开 这 个 参数 ， 并 且 有 N-1 个 表 

( 或 分 区 ) 的 大 小 总 和 小 于 


hive.auto.convert.join.noconditionaltask.size 参 数 指定 的 值 ， 那 么 
会 直接 将 连接 转 为 Map 连 接 。 
hive.auto.convert.join.noconditionaltask.size : 如 ES 
hive.auto.convert.join.noconditionaltask 是 关闭 的 ， 则 本 参数 不 起 
作用 。 否 则 ， 如 果 参 与 连接 的 N 个 表 (MAK) 中 的 N-1 个 的 总 
大 小 小 于 这 个 参数 的 值 ， 则 直接 将 连接 转 为 Map 连 接 。 默 认 值 
为 10MB。 
hive.auto.convert.join.use.nonstaged : 对 于 条 件 连 接 ， 如 果 从 一 
个 小 的 输入 流 可 以 直接 应 用 于 join 操 作 而 不 需要 过 滤 或 者 投 
影 ， 那 么 不 需要 通过 MapReduce 的 本 地 任务 在 分 布 式 缓存 中 预 
存 。 当 前 该 参数 在 vectorization 或 tez 执 行 引 擎 中 不 工作 。 


(2) 倾斜 连接 


两 个 大 表 连 接 时 ， 会 先 基于 连接 键 分 别 对 两 个 表 进 行 排 序 ， 然 后 
连接 它们 。Mapper 将 特定 键 值 的 所 有 行 发 送 给 同一 个 Reducer。 例 如 ， 
表 A 的 id 列 有 1、2、3、4 四 个 值 ， 表 B 的 id 列 有 1、2、3 三 个 值 。 查 询 语 
名 如下: 


select A.id from A join B on A.id = B.id 


一 系列 Mapper 读 取 表 中 的 数据 并 基于 键 值 发 送 给 Reducer。 如 id=1 
行进 入 Reducer R1，id=2 的 行进 入 Reducer R2 等 。 这 些 Reducer 产 生 A、 
B 的 交集 并 输出 。Reducer R4 只 从 A 获取 行 ， 不 会 产生 查询 结果 。 


现在 假设 id=1 的 数据 行 是 高 度 倾斜 的 ， 则 R2 和 R3 会 很 快 完 成 ， 而 
R1 需 要 很 长 时 间 ， 将 成 为 整个 查询 的 瓶颈 配置 倾斜 连接 的 相关 属性 
可 以 有 效 优化 倾斜 连接 。 


<property> 


<name>hive.optimize.skewjoin</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.skewjoin.key</name> 
<value>100000</value> 

</property> 

<property> 
<name>hive.skewjoin.mapjoin.map.tasks</name> 
<value>10000</value> 

</property> 

<property> 
<name>hive.skewjoin.mapjoin.min.split</name> 
<value>33554432</value> 

</property> 


说 明 : 


e hive.optimize.skewjoin: 是 否 为 连接 表 中 的 倾斜 键 创 建 单 独 的 执 
行 计 划 。 它 基于 存储 在 元 数据 中 的 倾斜 键 。 在 编译 时 ，Hive 为 
倾斜 键 和 其 他 键 值 生 成 各 自 的 查询 计划 。 
hive.skewjoin.key: 决定 如 何 确定 连接 中 的 倾斜 键 。 在 连接 操作 
中 ， 如 果 同 一 键 值 所 对 应 的 数据 行 数 超过 该 参数 值 ， 则 认为 该 
键 是 一 个 倾斜 连接 键 。 

hive.skewjoin.mapjoin.map.tasks: 指定 倾斜 连接 中 ， 用 于 Map 连 
接 作 业 的 任务 数 。 该 参数 应 该 与 hive.skewjoin.mapjoin.min.split 
一 起 使 用 ， 执 行 细 粒度 的 控制 。 
hive.skewjoin.mapjoin.min.split: 通过 指定 最 小 split 的 大 小 ， 确 
E Map 连 接 作 业 的 任务 数 。 该 参数 应 该 与 
hive.skewjoin.mapjoin.map.tasks 一 起 使 用 ， 执 行 细 粒度 的 控制 |。 


(3) 桶 Map 连 接 


如 果 连 接 中 使 用 的 表 是 按 特定 列 分 桶 的 ， 可 以 开启 桶 Map 连 接 提 


<property> 
<name>hive.optimize.bucketmapjoin</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.optimize.bucketmapjoin.sortedmerge</name> 
<value>true</value> 

</property> 


说 明 : 


ow 


e hive.optimize.bucketmapjoin: 是 否 尝 试 桶 Map 连 接 。 
e hive.optimize.bucketmapjoin.sortedmerge: 是 否 尝 试 在 Map 连 接 


中 使 用 归并 排序 。 
3。 避 免 使 用 order by 全 局 排序 


Hive 中 使 用 order by 子 句 实现 全 局 排序 。order by 只 用 一 个 Reducer 
产生 结果 ， 对 于 大 数据 集 ， 这 种 做 法 效率 很 低 。 如 果 不 需 要 全 局 有 
序 ， 则 可 以 使 用 sort by 子 句 ， 该 子 句 为 每 个 reducer 生 成 一 个 排 好 序 的 
文件 。 如 果 需 要 控制 一 个 特定 数据 行 流向 哪个 reducer， 可 以 使 用 
distribute by 子 句 ， 例 如 : 


select 
id, name, salary, dept from 


employee 
distribute by 


dept sort by 
id asc 


, name desc 


1 
1 


属于 一 个 dept 的 数据 会 分 配 到 同一 个 reducer 进 行 处 理 ， 同 一 个 dept 
的 所 有 记录 按照 il、name 列 排序 。 最 终 的 结果 集 是 全 局 有 序 的 。 在 
10.3 节 还 会 讨论 Hive 中 几 种 不 同 的 数据 排序 方法 。 


4. 启用 Tez 执 行 引 擎 


使 用 Tez 执 行 引 警 代替 传统 的 MapReduce5| 擎 会 大 幅 提 升 Hive 查 询 
的 性 能 。 在 安装 好 Tez 后 ， 配 置 hive.execution.engine 属 性 指定 执行 引 


H 
-o 


«property» 
«name-hive.execution.enginec/name» 
<value>tez</value> 
<description> 
Expects one of [mr, tez, spark]. 
Chooses execution engine. Options are: 
mr (Map reduce, default), tez (hadoop 2 only), spark 
</description> 
</property> 


5。 优 化 limit 操 作 


默认 时 limit 操 作 仍然 会 执行 整个 查询 ， 然 后 返回 限定 的 行 数 。 在 
有 些 情况 下 这 种 处 理 方式 很 浪费 ， 因 此 可 以 通过 设置 下 面 的 属性 避免 
此 行为 。 


<property> 
<name>hive.limit.optimize.enable</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.limit.row.max.size</name> 
<value>100000</value> 

</property> 

<property> 
<name>hive.limit.optimize.limit.file</name> 
<value>10</value> 


</property> 

<property> 
<name>hive.1limit.optimize.fetch.max</name> 
<value>50000</value> 

</property> 


说 明 : 


e hive.limit.optimize.enable: 是 否 局 用 limit 优 化 。 当 使 用 limit 语 句 
时 ， 对 产 数 据 进行 抽样 。 

* hive.limit.row.max.size: 在 使 用 limit 做 数据 的 子 集 查 询 时 保证 的 
最 小 行 数据 量 。 

e hive.limit.optimize.limit.file: 在 使 用 limit 做 数据 子 集 查 询 时 ， 采 
样 的 最 大 文件 数 。 

e hive.limit.optimize.fetch.max : 使 用 简单 limit 数 据 抽样 时 ， 人 允许 
的 最 大 行 数 。 


6. 启用 并 行 执行 


每 条 HiveQL 语 句 都 被 转化 成 一 个 或 多 个 执行 阶段 ， 可 能 是 一 个 
MapReduce 阶 段 、 采 样 阶段 、 归 并 阶段 、 限 制 阶段 等 。 默 认 时 ，Hive 
在 任意 时 刻 只 能 执行 其 中 一 个 阶段 。 如 果 组 成 一 个 特定 作业 的 多 个 执 
行 阶段 是 彼此 独立 的 ， 那 么 它们 可 以 并 行 执行 ， 从 而 整个 作业 得 以 更 
快 完成 。 通 过 设置 下 面 的 属性 启用 并 行 执行 。 


<property> 
<name>hive.exec.parallel</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.exec.parallel.thread.number</name> 
<value>8</value> 

</property> 


说 明 : 

。 hive.exec.parallel: 是 否 并 行 执行 作业 。 

。 hive.exec.parallel.thread.number: 最 多 可 以 并 行 执行 的 作业 数 。 
7。 启 用 MapReduce 严 格 模式 


Hive 提 供 了 一 个 严格 模式 ， 可 以 防止 用 户 执行 那些 可 能 产生 负面 
影响 的 查询 。 通 过 设置 下 面 的 属性 局 用 MapReduce 严 格 模式 。 


<property> 
<name>hive.mapred.mode</name> 
<value>strict</value> 
</property> 


严格 模式 禁止 3 种 类 型 的 查询 。 


。 对 于 分 区 表 ，where 子 句 中 不 包含 分 区 字段 过 滤 条 件 的 查询 语句 


不 允许 执行 。 
。 对 于 使 用 了 order by 子 句 的 查询 ， 要 求 必 须 使 用 limit 子 句 ， 否 则 
不 允许 执行 。 


。 限制 稍 卡 尔 积 查询 。 
8. 使 用 单一 Reduce 执 行 多 个 Group By 


通过 为 group by 操作 开启 单一 reduce 任 务 属性 ， 可 以 将 一 个 查询 中 
的 多 个 group by 操作 联合 在 一 起 发 送 给 单一 MapReduce 作 业 。 


<property> 
<name>hive.multigroupby.singlereducer</name> 
<value>true</value> 
<description> 
Whether to optimize multi group by query to generate 


single M/R job plan. 

If the multi group by query has common group by keys, 

it will be optimized to generate single M/R job. 
</description> 

</property> 


9. 控制 并 行 Reduce 任 务 


Hive 通 过 将 查询 划分 成 一 个 或 多 个 MapReduce 任 务 达 到 并 行 的 目 
的 。 确 定 最 佳 的 mapper 个 数 和 reducer 个 数 取 决 于 多 个 变量 ， 例 如 输入 
的 数据 量 以 及 对 这 些 数据 执行 的 操作 类 型 等 。 如 果 有 太 多 的 mapper 或 
reducer 任 务 ， 会 导致 启动 、 调 度 和 运行 作业 过 程 中 产生 过 多 的 开销 ， 
而 如 果 设 置 的 数量 太 少 ， 那 么 就 可 能 没有 充分 利用 好 集群 内 在 的 并 行 
性 。 对 于 一 个 Hive 查 询 ， 可 以 设置 下 面 的 属性 来 控制 并 行 reduce 任 务 
的 个 数 。 


<property> 
<name>hive.exec.reducers.bytes.per.reducer</name> 
<value>256000000</value> 

</property> 

<property> 
<name>hive.exec.reducers.max</name> 
<value>1009</value> 

</property> 


说 明 : 


e hive.exec.reducers.bytes.per.reducer: 每 个 reducer 的 字 节 数 ， 默 认 
值 为 256MB。Hive 是 按照 输入 的 数据 量 大 小 来 确定 reducer 个 数 
的 。 例 如 ， 如 果 输 入 的 数据 是 1GB， 将 使 用 4 个 reducer。 


。 hive.exec.reducers.max: 将 会 使 用 的 最 大 reducer 个 数 。 


10。 启 用 向 量化 


向 量化 特性 在 Hive 0.13.1 版 本 中 被 首次 引入 。 通 过 查询 执行 向 量 
化 ， 使 Hive 从 单行 处 理 数据 改 为 批量 处 理 方式 ， 具 体 来 说 是 一 次 处 理 
1024 行 而 不 是 原来 的 每 次 只 处 理 一 行 ， 这 大 大 提升 了 指令 流水 线 和 组 
存 的 利用 率 ， 从 而 提高 了 表 扫 描 、 聚 合 、 过 滤 和 连接 等 操作 的 性 能 。 
可 以 设置 下 面 的 属性 启用 查询 执行 向 量化 。 


<property> 
<name>hive.vectorized.execution.enabled</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.vectorized.execution.reduce. enabled</name> 
<value>true</value> 

</property> 

<property> 


<name>hive.vectorized.execution. reduce. groupby.enabled</name> 
<value>true</value> 
</property> 


说 明 : 


。 hive.vectorized.execution.enabled: 如 果 该 标志 设置 为 tue， 则 开 
局 查询 执行 的 向 量 模式 ， 默 认 值 为 false。 

。 hive.vectorized.execution.reduce.enabled : 如 果 该 标志 设置 为 
true， 则 开启 查询 执行 reduce 端 的 向 量 模式 ， 默 认 值 为 true。 

e hive.vectorized.execution.reduce.groupby.enabled: 如 果 该 标志 设 
置 为 rue， 则 开启 查询 执行 reduce 端 group by 操作 的 向 量 模式 ， 
默认 值 为 true。 


11. 启用 基于 成 本 的 优化 器 


Hive 0.14 版 本 开始 提供 基于 成 本 优化 器 (CBO) 特性 。 使 用 过 
Oracle 数 据 库 的 读者 对 CBO 一 定 不 会 卫生 。 与 Oracle 类 似 ，Hive 的 CBO 


也 可 以 根据 查询 成 本 制定 执行 计划 ， 例 如 确定 表 连 接 的 顺序 、 以 何 种 
方式 执行 连接 、 使 用 的 并 行 度 等 。 设 置 下 面 的 属性 启用 基于 成 本 优化 
fio 


«property» 
<name>hive.cbo.enable</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.compute.query.using.stats</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.stats.fetch.partition.stats</name> 
<value>true</value> 

</property> 

<property> 
<name>hive.stats.fetch.column.stats</name> 
<value>true</value> 

</property> 


说 明 : 


e hive.cbo.enable: 控制 是 否 局 用 基于 成 本 的 优化 器 ， 默 认 值 是 
true。 Hive 的 CBO 使 用 Apache Calcite 框 架 实现 。 

hive.compute.query.using.stats: 该 属性 的 默认 值 为 false。 如 果 设 
置 为 tue，Hive 在 执行 某 些 查 询 时 ， 例 如 select count(1)， 只 利用 
元 数据 存储 中 保存 的 状态 信息 返回 结果 。 为 了 收集 基本 状态 信 
息 ， 需 要 将 hive.stats.autogather 属 性 配置 为 tue。 为 了 收集 更 多 
的 状态 信息 ， 需 要 运行 analyze table 查 询 命令 。 

hive.stats.fetch.partition.stats: 该 属性 的 默认 值 为 tue。 操 作 树 中 
所 标识 的 统计 信息 ， 需 要 分 区 级 别 的 基本 统计 ， 如 每 个 分 区 的 
行 数 、 数 据 量 大 小 和 文件 大 小 等 。 分 区 统计 信息 从 元 数据 存储 
中 获取 。 如 果 存 在 很 多 分 区 ， 要 为 每 个 分 区 收集 统计 信息 可 能 
会 消耗 大 量 的 资源 。 这 个 标志 可 被 用 于 禁止 从 元 数据 存储 中 获 


取 分 区 统计 。 当 该 标志 设置 为 false 时 ，Hive 从 文件 系统 获取 文 
件 大 小 ， 并 根据 表 结 构 估 算 行 数 。 

。 hive.stats.fetch.column.stats: 该 属性 的 默认 值 为 false。 操 作 树 中 
所 标识 的 统计 信息 ， 需 要 列 统计 。 列 统计 信息 从 元 数据 存储 中 
获取 。 如 果 存 在 很 多 列 ， 要 为 每 个 列 收集 统计 信息 可 能 会 消耗 
大 量 的 资源 。 这 个 标志 可 被 用 于 禁止 从 元 数据 存储 中 获取 列 统 
Lis 

可 以 使 用 HiveQL 的 analyze table 语 句 收 集 一 个 表 中 所 有 列 相关 的 基 

本 统计 信息 ， 例 如 下 面 的 语句 收集 sales_order_fact 表 的 统计 信息 。 


analyze table 
sales order fact compute statistics for 


columns; 
analyze table 


sales order fact compute statistics for 


columns order number, customer sk; 


12 。 使 用 ORC 文 件 格式 


ORC 文 件 格式 可 以 有 效 提 升 Hive 查 询 的 性 能 。 图 8-4 由 
Hortonworks 公 司 提 供 ， 显 示 了 Hive 不 同文 件 格式 的 大 小 对 比 。 


File Size Comparison Across Encoding Methods 
Dataset: TPC-DS Scale 500 Dataset 


Impala 


221 GB + Larger Block Sivas 
* Columnar format 
(62% Smaller) ) arranges columns 
adjacent within the 
file for compression 
& fast access 


Encoded with 
ORCFile 


图 8-4 Hive 文 件 格式 与 大 小 对 比 
8.6 小结 


(1) 数据 清洗 是 转换 过 程 的 一 个 重要 步骤 。 它 是 对 数据 进行 重新 
审查 和 校 验 的 过 程 ， 目 的 在 于 删除 重复 信息 、 纠 正 存在 的 错误 ， 并 提 
供 数据 一 致 性 。 

(2) Hive 是 Hadoop 生 态 圈 的 数据 仓库 软件 ， 使 用 类 似 于 SQL 的 语 
言 读 、 写 、 管 理 分 布 式 存储 上 的 大 数据 集 。 

(3) HiveServer2 提 供 基 于 Thrift 的 Hive 服 务 和 一 个 Jetty Web 服 务 
器 ， 基 于 Thrift 的 Hive 服 务 是 HS2 的 核心 。 

(4) Hive 通 过 Thrift 提 供 Hive 元 数据 存储 服务 。 


(5) Beeline 是 为 与 HiveServer2 服 务 器 进行 交互 而 开发 的 新 命令 
行 工 具 。Hive 建 议 使 用 新 的 Beeline 人 代替 老 版 本 的 Hive CLI 客 户 端 。 


(6) 使 用 row number) 窗口 图 数 或 者 使 用 一 个 名 为 
UDFRowSequence 的 用 户 自 定 义 函 数 可 以 生成 代理 键 。 


(7) 用 Sqoop 和 HiveQL 能 够 实现 多 维 数 据 仓 库 的 初始 装载 和 定期 
ij 


(8) 通过 适当 地 配置 相关 属性 ， 可 以 有 效 优化 Hive 查 询 。 


第 9 章 
4 定期 目 动 执 行 ETL 作 业 


一 旦 数据 仓库 开始 使 用 ， 就 需要 不 断 从 源 系统 给 数据 仓库 提供 新 
数据 。 为 了 确保 数据 流 的 稳定 ， 需 要 使 用 所 在 平台 上 可 用 的 任务 调度 
器 来 调度 ETL 定 期 执行 。 调 度 模 块 是 ETL 系 统 必 不 可 少 的 组 成 部 分 ， 
它 不 但 是 数据 仓库 的 基本 需求 ， 也 对 项 目的 成 功 起 着 举足轻重 的 作 
用 。 


操作 系统 一 般 都 为 用 户 提 供 调度 作业 的 功能 ， 如 Windows 的 “计划 
任务 ”> 和 UNIX/Linux 的 cron 系 统 服务 。 绝 大 多 数 Hadoop 系 统 都 运行 在 
Linux 之 上 ， 因 此 本 章 详细 讨论 两 种 Linux 上 定时 自动 执行 ETL 作 业 的 
方案 。 一 种 是 经 典 的 crontab， 这 是 操作 系统 自 带 的 功能 ， 二 是 Hadoop 
生态 圈 中 的 Oozie 组 件 。 为 了 演示 Hadoop 对 数据 仓库 的 支持 能 力 ， 我 
们 的 示例 将 使 用 后 者 实现 ETL 执 行 自动 化 。 


9.1 crontab 


上 一 章 我 们 已 经 准备 好 用 于 定期 装载 的 regular_etl.sh shell 脚 本 文 
件 ， 可 以 很 容易 地 用 crontab 命 令 创 建 一 个 任务 ， 定 期 运行 此 脚本 。 


# 修改 文件 属性 为 可 执行 

chmod 755 /root/regular etl.sh 

4 编辑 crontab 文 件 内 容 

crontab -e 

# 添加 如 下 一 行 ， 指 定 每 天 2 点 执行 定期 装载 作业 ， 然 后 保存 退出 
02* * * /root/regular etl.sh 


这 就 可 以 了 ， 需 要 用 户 做 的 就 是 如 此 简单 ， 其 他 的 事情 交 给 cron 
系统 服务 去 完成 。 提 供 cron 服 务 的 进程 名 为 ccond， 这 是 Linux 下 一 个 用 
来 周期 性 执行 某 种 任务 或 处 理 某 些 事件 的 守护 进程 。 当 安装 完 操作 系 
统 后 ， 会 自动 启动 crond 进 程 ， 它 每 分 钟 会 定期 检查 是 否 有 要 执行 的 任 
务 ， 如 果 有 则 自动 执行 该 任务 。 


Linux 下 的 任务 调度 分 为 两 类 ， 系 统 任务 调度 和 用 户 任 务 调度 。 


。 系统 任务 调度 : 系统 需要 周期 性 执行 的 工作 ， 比 如 写 缓存 数据 
到 硬盘 、 日 志清 理 等 。 在 /etc 目 录 下 有 一 个 crontab 文 件 ， 这 个 就 
是 系统 任务 调度 的 配置 文件 。 

用 户 任 务 调度 : 用 户 要 定期 执行 的 工作 ， 比 如 用 户 数 据 备份 、 
定时 邮件 提醒 等 。 用 户 可 以 使 用 crontab 命 令 来 定制 自己 的 计划 
任务 。 所 有 用 户 定 义 的 crontab 文 件 都 被 保存 在 /var/spool/cron 目 
录 中 ， 其 文件 名 与 用 户 名 一 致 。 


1。crontab 权 限 


Linux 系 统 使 用 一 对 allow/deny 文 件 组 合 判断 用 户 是 否 具 有 执行 
crontab 的 权限 。 如 果 用 户 名 出 现在 /etc/cron.allow 文 件 中 ， 则 该 用 户 允 
许 执行 crontab 命 令 。 如 果 此 文件 不 存在 ， 那 么 如 果 用 户 名 没有 出 现 
在 /etcwcron.deny 文 件 中 ， 则 该 用 户 允 许 执行 crontab 命 令 。 如 果 只 存在 
cron.deny 文 件 ， 并 且 该 文件 是 空 的 ， 则 所 有 用 户 都 可 以 使 用 crontab 命 
令 。 如 果 这 两 个 文件 都 不 存在 ， 那 么 只 有 root 用 户 可 以 执行 crontab 命 
令 。allow/deny 文 件 由 每 行 一 个 用 户 名 构成 。 


2 。crontab 命 令 


通过 crontab 命 令 ， 我 们 可 以 在 固定 间隔 的 时 间 点 执行 指定 的 系统 
指令 或 shell 脚 本 。 时 间 间 隔 的 单位 可 以 是 分 钟 、 小 时 、 日 、 月 、 周 及 


以 上 的 任意 组 合 。crontab 命 令 格 式 如 下 : 


crontab [-u user] file 
crontab [-u user] [ -e | -1 | -r ] 


说 明 : 


e -uuser: 用 来 设 定 某 个 用 户 的 crontab 服 务 ， 此 参数 一 般 由 root 用 
户 使 用 。 

。file: file 是 命令 文件 的 名 字 ， 表 示 将 人 le 作为 crontab 的 任务 列表 
文件 并 载 入 crontab。 如 果 在 命令 行 中 没有 指定 这 个 文件 ， 
crontab 命 令 将 接受 标准 输入 ， 通 常 是 键盘 上 键入 的 命令 ， 并 将 
它们 载 入 crontab。 

-e: 编辑 某 个 用 户 的 crontab 文 件 内 容 。 如 果 不 指定 用 户 ， 则 表 
示 编 辑 当 前 用 户 的 crontab 文 件 。 如 果 文 件 不 存在 ， 则 创建 一 


个 
[`o 


-]: 显示 某 个 用 户 的 crontab 文 件 内 容 ， 如 果 不 指定 用 户 ， 则 表 
示 显 示 当 前 用 户 的 crontab 文 件 内 容 。 

-r: 从 /var/spool/cron 目 录 中 删除 某 个 用 户 的 crontab 文 件 ， 如 果 
不 指定 用 户 ， 则 默认 删除 当前 用 户 的 crontab 文 件 。 


注意 : 如 果 不 经 意 地 输入 了 不 带 任何 参数 的 crontab 命 令 ， 不 要 使 
用 Control-d 退 出 ， 因 为 这 会 删除 用 户 所 对 应 的 crontab 文 件 中 的 所 有 条 
目 。 代 替 的 方法 是 用 Control-c 退 出 。 


3。crontab 文 件 
用 户 所 建立 的 crontab 文 件 中 ， 每 一 行 都 代表 一 项 任务 ， 每 行 的 每 


个 字段 代表 一 项 设置 。 它 的 格式 共 分 为 六 个 字段 ， 前 五 段 是 时 间 设 定 
段 ， 第 六 段 是 要 执行 的 命令 段 ， 格 式 如 下 : 


——— 分 钟 (0 - 59) 
[ u————————À het (0 - 23) 
oS 日 期 (1 - 31) 
| .-—----- 月 份 (1 - 12) 
| .--- 星期 (0 - 6， 代 表 周 日 到 周一 ) 


+ 要 执行 的 命令 ， 可 以 是 系统 命令 ， 也 可 以 是 自己 编写 的 脚本 文件 
在 以 上 各 个 时 间 字 段 中 ， 还 可 以 使 用 如 下 特殊 字符 : 


。 Es (*) : 代表 所 有 可 能 的 值 ， 例 如 “月 份 "字段 如 果 是 星 号 ， 
则 表示 在 满足 其 他 字段 的 制约 条 件 后 每 月 都 执行 该 命令 操作 。 
。 E5 (,) : 可 以 用 逗号 隔 开 的 值 指定 一 个 列表 范围 ， 例 如 ， 
105789" 
。 HAT (-) : 可 以 用 整数 之 间 的 中 杠 表示 一 个 整数 范围 ， 例 如 
“2-6” 表 示 “2,3,4,5,6”。 
ERK (/) : 可 以 用 正 斜 线 指定 时 间 的 间隔 频率 ， 例 如 “0- 
23/2” 表 示 每 两 小 时 执行 一 次 。 同 时 正 斜 线 可 以 和 星 号 一 起 使 
用 ,例如 */10， 如 果 用 在 “分 钟 ”* 字 段 ， 表 示 每 十 分 钟 执行 一 
次 。 
注意 ，“ 日 期 * 和 “星期 * 字 段 都 可 以 指定 哪 天 执行 ， 如 果 两 个 字段 
都 设置 了 ， 则 执行 的 日 期 是 两 个 字段 的 并 集 。 


4。crontab 示 例 


# 每 1 分 钟 执 行 一 次 command 

* * * * * command 

# 每 小 时 的 第 3 和 第 15 分 钟 执 行 

3,15 * * * * command 

# 在 上 午 8 点 到 11 点 的 第 3 和 第 15 分 钟 执行 

3,15 8-11 * * * command 

# 每 隔 两 天 的 上 午 8 点 到 11 点 的 第 3 和 第 15 分 钟 执行 
3,15 8-11 */2 * * command 

# 每 个 星期 一 的 上 午 8 点 到 11 点 的 第 3 和 第 15 分 钟 执行 
3,15 8-11 * * 1 command 


4 每 晚 的 21 :30 执行 

30 21 * * * command 

# 每 月 1、10、22 日 的 4:45 执 行 

45 4 1,10,22 * * command 

# 每 周 六 、 周 日 的 1:10 执 行 

10 1 * * 6,0 command 

# 每 天 18 :00 至 23 :00 之 间 每 隔 30 分 钟 执行 
0,30 18-23 * * * command 

每 星期 六 的 晚上 11 :00 执 行 

23 * * 6 command 

每 一 小 时 执行 一 次 

*/1 * * * command 

晚上 11 点 到 早上 7 点 之 间 ， 每 隔 一 小 时 执行 一 次 
23-7/1 * * * command 

每 月 的 4 号 与 每 周一 到 周三 的 11 点 执行 

11 4 * 1-3 command 

一 月 一 号 的 4 点 执行 

411 * command 

每 小 时 执行 /etc/cron.hourly 目 录 内 的 脚本 
01* * * * root run-parts /etc/cron.hourly 


说 明 : run-parts 会 遍历 目标 文件 夹 ， 执 行 第 一 层 目 录 下 具有 可 执行 权限 的 文件 。 
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5。crontab 环 境 


有 时 我 们 创建 了 一 个 crontab 任 务 ， 但 是 这 个 任务 却 无 法 目 动 执 
行 ， 而 手动 执行 脚本 却 没有 问题 ， 这 种 情况 一 般 是 由 于 在 crontab 文 件 
中 没有 配置 环境 变量 引起 的 。cron 从 用 户 所 在 的 主 目录 中 使 用 shell 调 
用 需要 执行 的 命令 。cron 为 每 个 shell 提 供 了 一 个 默认 的 环境 ，Linux 下 
的 定义 如 下 : 


SHELL=/bin/bash 
PATH=/sbin:/bin:/usr/sbin:/usr/bin 


MAILTO= 用 户 名 
HOME= 用 户主 目录 


在 crontab 文 件 中 定义 多 个 调度 任务 时 ， 需 要 特别 注意 的 一 个 问题 
就 是 环境 变量 的 设置 ， 因 为 我 们 手动 执行 某 个 脚本 时 ， 是 在 当前 shell 
环境 下 进行 的 ， 程 序 能 找到 环境 变量 ; 而 系统 自动 执行 任务 调度 时 ， 
除了 默认 的 环境 ， 是 不 会 加 载 任何 其 他 环境 变量 的 。 因 此 就 需要 在 
crontab 文 件 中 指定 任务 运行 所 需 的 所 有 环境 变量 。 

不 要 假定 cron 知 道 所 需要 的 特殊 环境 ， 它 其 实 并 不 知道 。 所 以 用 
户 要 保证 在 shell 脚 本 中 提供 所 有 必要 的 路 径 和 环境 变量 ， 除 了 一 些 自 
动 设置 的 全 局 变量 。 以 下 三 点 需要 注意 : 


。 脚 本 中 涉及 文件 路 径 时 写 绝对 路 径 ; 
。 脚本 执行 要 用 到 环境 变量 时 ， 通 过 source 命 令 显 式 引入 ， 例 
如 : 


#!/bin/sh 
source /etc/profile 


。 当 手 动 执行 脚本 没 问 题 ， 但 是 crontab 不 执行 时 ， 可 以 尝试 在 
crontab 中 直接 引入 环境 变量 解决 问题 ， 例 如 : 


0* * * * , /etc/profile;/bin/sh /path/to/myscript.sh 


c. 重 定向 输出 邮件 


默认 时 ， 每 条 任务 调度 执行 完毕 ， 系 统 都 会 将 任务 输出 信息 通过 
电子 邮件 的 形式 发 送 给 当前 系统 用 户 。 这 样 日 积 月 累 ， 日 志 信 息 会 非 
常 大 ， 可 能 会 影响 系统 的 正常 运行 。 因 此 ， 将 每 条 任务 进行 重 定向 处 
理 非常 重要 。 可 以 在 crontab 文 件 中 设置 如 下 形式 ， 忽 略 日 志 输 出 : 


© */3* * * /usr/local/myscript.sh >/dev/null 2>&1 


*»/dev/null 2>&1” 表 示 先 将 标准 输出 重 定向 到 /dev/null， 然 后 将 标 
准 错误 重 定向 到 标准 输出 。 由 于 标准 输出 已 经 重 定 向 到 了 /dev/null， 
此 标准 错误 也 会 重 定向 到 /dev/null， 这 样 日 志 输 出 问题 就 解决 了 。 


7. 生成 日 志文 件 


可 以 将 crontab 执 行 任 务 的 输出 信息 重 定向 到 一 个 自 定 义 的 日 志文 
件 中 ， 例 如 : 


8** * rm /home/someuser/tmp/* > 
/home/someuser/cronlogs/clean tmp dir.log 


9.2 ”Oozie 简 介 


除了 利用 操作 系统 提供 的 功能 以 外 ，Hadoop 生 态 圈 的 工具 也 可 以 
完成 同样 的 调度 任务 ， 而 且 更 灵活 ， 这 个 组 件 就 是 Oozie。 


Oozie 是 一 个 管理 Hadoop 作 业 、 可 伸缩 、 可 扩展 、 可 靠 的 工作 流 
调度 系统 ， 它 内 部 定义 了 三 种 作业 : 工作 流 作 业 、 协 调 器 作业 和 
Bundle 作 业 。 工 作 流 作业 是 由 一 系列 动作 构成 的 有 向 无 环 图 

(DAGs) ， 协 调 器 作业 是 按时 间 频 率 周 期 性 触发 Oozie 工 作 流 的 作 
业 ，Bundle 管 理 协 调 器 作业 。Oozie 支 持 的 用 户 作 业 类 型 有 Java map- 
reduce, Streaming map-reduce、Pig、Hive、Sqoop 和 Distcp ， 及 其 Java 


程序 和 shell 脚 本 或 命令 等 特定 的 系统 作业 。 


Oozie 项 目 经 历 了 三 个 主要 阶段 。 第 一 版 Oozie 是 一 个 基于 工作 流 
引擎 的 服务 器 ， 通 过 执行 Hadoop MapReduce 和 Pig 作 业 的 动作 运行 工 
作 流 作业 。 第 二 版 Oozie 是 一 个 基于 协调 器 引擎 的 服务 器 ， 按 时 间 和 数 
据 触发 工作 流 执行 。 它 可 以 基于 时 间 一 次 ) 或 数据 可 
用 性 〈 如 等 待 输入 数据 完成 后 再 执行 ) 连续 运行 工作 流 。 第 三 版 Oozie 


是 一 个 基于 Bundle 引 和 擎 的 服务 器 。 它 提供 更 高 级 别 的 抽象 ， 批 量 处 理 
一 系列 协调 器 应 用 。 用 户 可 以 在 bundle 级 别 启动 、 停 止 、 挂 起 、 继 
续 、 重 做 协调 器 作业 ， 这 样 可 以 更 好 地 简化 操作 控制 。 


使 用 Oozie 主 要 基于 以 下 两 点 原因 : 


9.2.1 


在 Hadoop 中 执行 的 任务 有 时 候 需 要 把 多 个 MapReduce 作 业 连 接 
到 一 起 执行 ， 或 者 需要 多 个 作业 并 行 处 理 。Oozie 可 以 把 多 个 
MapReduce 作 业 组 合 到 一 个 逻辑 工作 单元 中 ， 从 而 完成 更 大 型 
的 任务 。 

从 调度 的 角度 看 ， 如 果 使 用 crontab 的 方式 调用 多 个 工作 流 作 
业 ， 可 能 需要 编写 大 量 的 脚本 ， 还 要 通过 脚本 来 控制 好 各 个 工 
作 流 作业 的 执行 时 序 问题 ， 不 但 不 好 维护 ， 而 且 监 控 也 不 方 
便 。 基 于 这 样 的 背景 ，Oozie 提 出 了 Coordinator 的 概念 ， 它 能 够 
将 每 个 工作 流 作 业 作 为 一 个 动作 来 运行 ， 相 当 于 工作 流 定 义 中 
的 一 个 执行 节点 ， 这 样 就 能 够 将 多 个 工作 流 作 业 组 成 一 个 称 为 
Coordinator Job 的 作业 ， 并 指定 触发 时 间 和 频率 ， 还 可 以 配置 数 
据 集 、 并 发 数 等 。 


Oozie 的 体系 结构 


Oozie 的 体系 结构 如 图 9-1 所 示 。 
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Oozie 是 一 种 Java Web 应 用 程序 ， 它 运行 在 Java Servlet 容 器 ， 即 
Tomcat 中 ， 并 使 用 数据 库 来 存储 以 下 内 容 : 


。 工作 流 定义 。 

。 当前 运行 的 工作 流 实例 ， 包 括 实例 的 状态 和 变量 。 

Oozie 工 作 流 是 放置 在 DAG (有 向 无 环 图 Direct Acyclic Graph) 中 
的 一 组 动作 ， 例 如 ，Hadoop 的 Map/Reduce 作 业 、Pig 作 业 等 。DAG 控 
制 动 作 的 依赖 关系 ， 指 定 了 动作 执行 的 顺序 。Oozie 使 用 hPDL 这 种 
XML 流程 定义 语言 来 描述 这 个 图 。 

hPDL 是 一 种 很 简洁 的 语言 ， 它 只 会 使 用 少数 流程 控制 节点 和 动作 
节点 。 控 制 节点 会 定义 执行 的 流程 ， 并 包含 工作 流 的 起 点 和 终点 
(start、end 和 fail 节 点 ) 以 及 控制 工作 流 执行 路 径 的 机 制 (decision. 
fork 和 join 节点 ) 。 动 作 节 点 是 实际 执行 操作 的 部 分 ， 通 过 它们 工作 流 
会 触发 执行 计算 或 者 处 理 任务 。Oozie 为 以 下 类 型 的 动作 提供 支持 : 
Hadoop MapReduce, Hadoop HDFS、Pig、Java 和 Oozie 的 子 工作 流 。 
而 SSH 动 作 已 经 从 Oozie schema 0.2 之 后 的 版 本 中 移 除 了 。 


所 有 由 动作 节点 触发 的 计算 和 处 理 任 务 都 不 在 Oozie 中 运行 。 它 们 
是 由 Hadoop 的 MapReduce 框 架 执行 的 。 这 种 低 耦 合 的 设计 方法 让 Oozie 
可 以 有 效 利 用 Hadoop 的 负载 平衡 、 灾 难 恢 复 等 机 制 。 这 些 任务 主要 是 
串 行 执行 的 ， 只 有 文件 系统 动作 例外 ， 它 是 并 行 处 理 的 。 这 意味 着 对 
于 大 多 数 工 作 流 动作 触发 的 计算 或 处 理 任务 类 型 来 说 ， 在 工作 流 操作 
转换 到 工作 流 的 下 一 个 节点 之 前 都 需要 等 待 ， 直 到 前 面 节 点 的 计算 或 
处 理 任务 结束 了 之 后 才能 够 继续 。Oozie 可 以 通过 两 种 不 同 的 方式 来 检 
测 计算 或 处 理 任务 是 否 完成 ， 这 就 是 回调 和 轮 询 。 当 Oozie 启 动 了 计算 
或 处 理 任务 时 ， 它 会 为 任务 提供 唯一 的 回调 URL， 然 后 任务 会 在 完成 
的 时 候 发 送 通 知 给 这 个 特定 的 URL。 在 任务 无 法 触发 回调 URL 的 情况 
下 (可 能 是 因为 任何 原因 ， 上 比方 说 网 络 闪 断 ) ， 或 者 当 任务 的 类 型 无 
法 在 完成 时 触发 回调 URL 的 时 候 ，Oozie 有 一 种 机 制 ， 可 以 对 计算 或 处 
理 任务 进行 轮 询 ， 从 而 能 够 判断 任务 是 否 完成 。 

Oozie 工 作 流 可 以 参数 化 ， 例 如 在 工作 流 定义 中 使 用 像 ${inputDir} 
之 类 的 变量 等 。 在 提交 工作 流 操 作 的 时 候 ， 我 们 必须 提供 参数 值 。 如 
果 经 过 合适 地 参数 化 ， 比 如 使 用 不 同 的 输出 目录 ， 那 么 多 个 同样 的 工 
作 流 操作 可 以 并 发 执行 。 

一 些 工 作 流 是 根据 需要 触发 的 ， 但 是 大 多 数 情况 下 ， 我 们 有 必要 
基于 一 定 的 时 间 段 、 数 据 可 用 性 或 外 部 事件 来 运行 它们 。Oozie 协 调 系 
统 (Coordinator system) 让 用 户 可 以 基于 这 些 参数 来 定义 工作 流 执行 
计划 。Oozie 协 调 程序 让 我 们 可 以 用 谓词 的 方式 对 工作 流 执行 触发 器 进 
行 建 模 ， 谓 词 可 以 是 时 间 条 件 、 数 据 条 件 、 内 部 事件 或 外 部 事件 。 工 
作 流 作业 会 在 谓词 得 到 满足 的 时 候 启 动 。 不 难看 出 ， 这 里 的 谓词 ， 其 
作用 和 SQL 语句 的 WHERE 子 句 中 的 谓词 类 似 ， 本 质 上 都 是 在 满足 某 些 
条 件 时 触发 某 种 事件 。 

有 时 ， 我 们 还 需要 连接 定时 运行 、 但 时 间 间 隔 不 同 的 工作 流 操 
作 。 多 个 以 不 同 频率 运行 的 工作 流 的 输出 会 成 为 下 一 个 工作 流 的 输 


入 。 把 这 些 工 作 流连 接 在 一 起 ， 会 让 系统 把 它 作 为 数据 应 用 的 管道 来 
引用 。Oozie 协 调 程序 支持 创建 这 样 的 数据 应 用 管道 。 


9.22 CDH 5.7.0 中 的 Oozie 


CDH 5.7.0 中 ，Oozie 的 版 本 是 4.1.0， 其 元 数据 存储 使 用 MySQL 
(4.4 节 CDH 安 装 中 有 相关 配置 ) 。 关 于 CDH 5.7.0 中 Oozie 的 属性 ， 参 
考 以 下 链接 : 

https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ 


props cdh570 oozie.html 


9.3 ”建立 定期 装载 工作 流 


对 于 刚 接触 Oozie 的 用 户 来 说 ， 前 面 介 绍 的 概念 过 于 抽象 ， 不 易 理 
解 ， 那 么 就 让 我 们 一 步 步 创建 销售 订单 示例 ETL 的 工作 流 ， 在 实例 中 
学 习 Oozie 的 特性 和 用 法 。 


1. 修改 资源 配置 


Oozie 运 行 需要 使 用 较 高 的 内 存 资源 ， 因 此 要 将 以 下 两 个 YARN 参 
效 的 值 调 大 : 


。 yarn.nodemanager.resource.memory-mb : NodeManage 总 的 可 用 
物理 内 存 。 
e yarn.scheduler.maximum-allocation-mb : 一 个 MapReduce 任 务 可 


申请 的 最 大 内 存 。 
如 果 分 配 的 内 存 不 足 ， 在 执行 工作 流 作业 时 会 报 类 似 下 面 的 错 


org.apache.oozie.action.ActionExecutorException: JA009: 
org.apache.hadoop.yarn.exceptions.InvalidResourceRequestExcep 
tion: Invalid resource request, 

requested memory < 0, or requested memory > max configured, 
requestedMemory=1536, 

maxMemory-1500 


我 们 的 实验 环境 中 ， 每 个 Hadoop 节 点 所 在 虚拟 机 的 总 物理 内 存 为 
8GB， 所 以 把 这 两 个 参数 都 设置 为 2GB。 修 改 的 方法 有 两 种 ， 可 以 编 
辑 yarn-site.xml 文 件 里 的 属性 ， 如 : 


<property> 

<name>yarn.nodemanager .resource.memory-mb</name> 
<value>2000</value> 

</property> 

<property> 
<name>yarn. scheduler .maximum-allocation-mb</name> 
<value>2000</value> 

</property> 


或 者 在 Cloudera | Manager 中 1€ 改 , 
yarn.nodemanager.resource.memory-mb 参数 在 YARN 服务 的 
NodeManager 3G Æ| # , yarn.scheduler.maximum-allocation-mb 参数 在 


YARN 服 务 的 ResourceManager 范 围 里 。 无 论 使 用 哪 种 方法 ， 修 改 后 都 
需要 保存 更 改 并 重启 Hadoop 集 群 。 


2。 启 用 Oozie Web Console 


默认 安装 CDH 时 ，Oozie Web Console 是 禁用 的 ， 为 了 后 面 方便 监 
控 Oozie 作 业 的 执行 ， 需 要 将 其 改 为 局 用 状态 。“ 局 用 Oozie 服 务 器 Web 
控制 台 ” 属 性 在 Oozie 服 务 的 “Oozie Server Default Group” 里 。 有 具体 的 做 


法 是 : 


501 下 载 ext-2.2 包 ， 解 压缩 到 Oozie 服 务 器 实例 所 在 节点 
的 /var/lib/oozie/ 目 录 下 。 


步 又 02 登录 Cloudera Manager 管 理 控 制 台 ， 进 入 Oozie 服 务 页 
Ho 

5803) 单 击 “配置 "标签 。 

步骤 044 定位 “启用 Oozie 服 务 器 Web 控 制 台 ” 属 性 ， 或 者 在 搜索 框 
中 输入 该 属性 名 查找 。 

步骤 05 4 选择 “启用 Oozie 服 务 器 Web 控 制 台 ”的 复 选 杠 。 

SOG, 单 击 “ 保 存 更 改 ”" 按 钮 提交 所 做 的 修改 。 

步骤 07 4 重启 Oozie 服 务 。 


3。 启 动 Sqoop 的 share metastore service 


定期 装载 工作 流 需要 用 Oozie 调 用 Sqoop 执 行 ， 这 需要 开启 Sqoop 的 
元 数据 共享 存储 ， 命 令 如 下 : 


sqoop metastore > /tmp/sqoop metastore.log 2>&1 & 


metastore 工 具 配 置 Sqoop 作 业 的 共享 元 数据 信息 存储 ， 它 会 在 当前 
主机 启动 一 个 内 置 的 HSQLDB 共 享 数据 库 实例 。 客 户 端 可 以 连接 这 个 
metastore ， 这 样 允许 多 个 用 户 定义 并 执行 metastore 中 存储 的 Sqoop 作 
业 o metastore 库 文件 的 存储 位 S 由 sqoop-site.xml 中 的 
sqoop.metastore.server.location 属 性 配置 ， 它 指向 一 个 本 地 文件 。 如 果 
不 设置 这 个 属性 ，Sqoop 元 数据 默认 存储 在 ~/.sqoop 目 录 下 。 


如 果 碰 到 用 Oozie 工 作 流 执行 Sqoop 命 令 是 成 功 的 ， 但 执行 Sqoop 作 
业 却 失败 的 情况 ， 可 以 参考 “Oozie 系 列 (3) 之 解决 Sqoop Job 无 法 运行 的 


本题" 这 篇 文章 。 该 文中 对 这 个 问题 有 很 详细 的 分 析 ， 并 提供 了 解决 方 
案 ， 其 访问 地 址 是 : 


—; 


http://www. lamborryan.com/oozie-sqoop-fail/ 


4. 连接 metastore 重 建 sqoop job 


我 们 在 上 一 章 中 建立 了 一 个 增 量 抽取 sales_order 表 数据 的 Sqoop 作 
业 ， 但 其 元 数据 并 没有 存储 在 shared metastore 里 ， 所 以 需要 使 用 以 下 
的 命令 进行 重建 : 


last value-'sqoop job --show myjob incremental import | grep 
incremental.last.value | awk 

'(print $3} 

sqoop job --delete myjob incremental import 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 


--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 
--table sales_order \ 

--columns "order_number, customer_number, product_code, 
order_date, entry_date, order_amount" 

N 

--hive-import \ 

--hive-table rds.sales order \ 

--incremental append \ 

--check-column order_number \ 

--last-value $last_value 


在 上 面 命令 的 第 一 行 中 ， 先 用 sqoop 的 --show 选 项 查询 最 后 一 次 执 
行 定 期 装载 后 incremental.last.value 的 值 ， 并 将 这 个 值 赋 给 名 为 
last_value 的 shell 变 量 。 在 创建 作业 命令 的 最 后 一 行 中 ，--]last-value 选 项 
将 当前 最 大 值 作为 参数 。 和 上 一 章 的 myjob_incremental_import 作 业 创 


€E di owt, & E HD 7 — íT --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop ， 就 是 通过 这 个 选项 将 作业 元 数据 
存储 到 HSQLDB 数 据 库 文件 中 ，metastore 的 默认 端口 是 16000， 可 以 用 
sqoop.metastore.server.port 属 性 设置 为 其 他 端口 号 。 创 建 作 业 前 ， 需 
使 用 --delete 参 数 先 删除 已 经 存在 的 同名 作业 。 


5。 定 义工 作 流 


建立 内 容 如 下 的 workflow.xml 文 件 : 


<?xml version="1.0" encoding="utf-8"?> 
«workflow-app xmlns-"uri:oozie:workflow:0.1" 
name="regular_etl"> 
<start to="fork-node"/> 
<fork name="fork-node"> 
«path start="sqoop-customer" /> 
«path start-"sqoop-product" /> 
«path start-"sqoop-sales order" /> 
</fork> 
«action name="sqoop-customer'"> 
«sqoop xmlns-"uri:oozie:sqoop-action:0.2'-» 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name - node> 
<arg>import</arg> 
<arg>--connect</arg> 
<arg>jdbc:mysql://cdh1:3306/source? 
useSSL=false</arg> 
<arg>- -username</arg> 
<arg>root</arg> 
<arg>- -password</arg> 
<arg>mypassword</arg> 
<arg>--table</arg> 
<arg>customer</arg> 
<arg>--hive-import</arg> 
<arg>--hive-table</arg> 
<arg>rds.customer</arg> 
<arg>--hive-overwrite</arg> 
<file>/tmp/hive-site.xml#hive-site.xml</file> 
<archive>/tmp/mysql-connector-java-5.1.38- 
bin. jar#mysql-connector -java-5.1.38- 
bin. jar</archive> 


</sqoop> 

<ok to="joining"/> 

<error to="fail"/> 

</action> 
«action name="sqoop-product"> 

«sqoop xmlns-"uri:oozie:sqoop-action:0.2'-» 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name -node» 
<arg>import</arg> 
<arg>- -connect</arg> 
«arg»jdbc:mysq1://cdh1:3306/source? 

useSSL=false</arg> 

<arg>- -username</arg> 
<arg>root</arg> 
<arg>- -password</arg> 
<arg>mypassword</arg> 
<arg>--table</arg> 
<arg>product</arg> 
<arg>--hive-import</arg> 
<arg>- -hive-table</arg> 
<arg>rds.product</arg> 
<arg>--hive-overwrite</arg> 


<file>/tmp/hive-site.xml#hive-site.xml</file> 


<archive>/tmp/mysql-connector -java-5.1.38- 
bin. jar#mysql-connector-java-5.1.38- 
bin. jar</archive> 
</sqoop> 
<ok to="joining"/> 
<error to="fail"/> 
</action> 
«action name="sqoop-sales_order'"> 
«sqoop xmlns="uri:00Zie:sqoop-action:@.2"> 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode }</name - node> 


<command>job --exec myjob_incremental_import -- 


meta-connect 
jdbc: hsqldb: hsql: //cdh2:16000/sqoop</command> 


<file>/tmp/hive-site.xml#hive-site.xml</file> 


<archive>/tmp/mysql-connector -java-5.1.38- 
bin. jar#mysql-connector -java-5.1.38- 
bin. jar</archive> 
</sqoop> 
<ok to="joining"/> 
<error to="fail"/> 
</action> 
«join name="joining" to="hive-node"/> 
<action name="hive-node"> 
«hive xmlns="uri:oozie:hive-action:0.2"> 


<job-tracker>${jobTracker }</job-tracker> 
<name -node>${nameNode }</name node» 
<job-xml>/tmp/hive-site.xml</job-xml> 
<script>/tmp/regular_etl.sql</script> 
</hive> 
<ok to="end"/> 
<error to="fail"/> 
</action> 
<kill name="fail"> 
<message>Sqoop failed, error 
message[${wf:errorMessage(wf : lastErrorNode() )}]</message> 
</kill> 
<end name="end"/> 
</workflow-app> 


这 个 工作 流 的 DAG 如 图 9-2 所 示 。 


start 


sqoop-customer | sqoop-product sqoop-sales order 


join / 


hive-node 


| 


end 


图 9-2 ”定期 装载 DAG 


上 面 的 XML 文件 使 用 hPDL 的 语法 定义 了 一 个 名 为 regular_etl 的 工 
作 流 。 该 工作 流 包括 9 个 节点 ， 其 中 有 5 个 控制 节点 ，4 个 动作 节点 : 工 
作 流 的 起 点 start、 终 点 end、 失 败 处 理 节点 fail (DAG 图 中 未 显示 ) , 
两 个 执行 路 径 控制 节点 fork-node 和 joining， 三 个 并 行 处 理 的 Sqoop 动 作 
T FAsqoop-customer, sqoop-product、Ssqoop-sales_order 用 作 数 据 抽取 ， 
一 个 Hive 动 作 节点 hive-node 用 作 数 据 转换 与 装载 。 

Oozie 的 工作 流 节 点 分 为 控制 节点 和 动作 节点 两 类 。 控 制 节点 控制 
着 工作 流 的 开始 、 结 束 和 作业 的 执行 路 径 。 动 作 节 点 触发 计算 或 处 理 
任务 的 执行 。 节 点 的 名 字 必 须 符合 [a-zA-Z][\-_a-zA-Z0-0]* 这 种 正则 表 
达 式 模式 ， 并 且 不 能 超过 20 个 字符 。 


(1) 控制 节点 


控制 节点 又 可 分 成 两 种 ， 一 种 定义 工作 流 的 开始 和 结束 ， 这 种 节 
点 使 用 start、end 和 kill 三 个 标签 。 另 一 种 用 来 控制 工作 流 的 执行 路 径 ， 
使 用 decision、fork 和 join 标 签 。 

start 节 点 是 一 个 工作 流 作 业 的 入 口 ， 是 工作 流 作业 的 第 一 个 节 
点 。 当 工作 流 开 始 时 ， 它 会 自动 转 到 start 标 签 所 标识 的 节点 。 每 一 个 
工作 流 定义 必须 包含 一 个 start 节 点 。 

end 节 点 是 工作 流 作业 的 结束 ， 它 表示 工作 流 作业 成 功 完 成 。 当 工 
作 流 到 达 这 个 节点 时 就 结束 了 。 如 果 在 到 达 end 节 点 时 ， 还 有 一 个 或 多 
个 动作 正在 执行 ， 这 些 动作 将 被 kil， 这 种 场景 也 被 认为 是 执行 成 功 。 
每 个 工作 流 定 义 必 须 包 含 一 个 end 节 点 。 

kil 节 点 允许 一 个 工作 流 作 业 将 自己 kill 掉 。 当 工作 流 作 业 到 达 kil 
节点 时 ， 表 示 作 业 以 失败 结束 。 如 果 在 到 达 kill 节 点 时 ， 还 有 一 个 或 多 
个 动作 正在 执行 ， 这 些 动作 将 被 kill。 一 个 工作 流 定义 中 可 以 没有 kil 
节点 ， 也 可 以 包含 一 个 或 多 个 kil 节 点 。 


decision 节 点 能 够 让 工作 流 选择 执行 路 径 ， 其 行为 类 似 于 一 个 
switch-case 语 句 ， 即 按 不 同情 况 走 不 同 分 支 。 我 们 刚 定 义 的 工作 流 中 
没有 decision 节 点 ， 因 此 到 11.1 节 用 到 decision 节 点 时 再 详细 讨论 。 

fork 刷 点 将 一 个 执行 路 径 分 裂 成 多 个 并 发 的 执行 路 径 。 直 到 所 有 
这 些 并 发 执行 的 路 径 都 到 达 join 节 点 后 ， 工 作 流 才 会 继续 往 后 执行 。 
fork 与 join 节点 必须 成 对 出 现 。 实 际 上 join 节点 将 多 条 并 发 执行 路 径 视 
作 同 一 个 fork 节 点 的 子 节点 。 


(2) 动作 节点 


动作 节点 是 实际 执行 操作 的 部 分 。Oozie 支 持 很 多 种 动作 节点 ， 包 
括 Hive 脚 本 、Hive Server2 脚 本 、Pig 脚 本 、Spark 程 序 、Java 程 序 、 
Sqoop1 命 令 、MapReduce 作 业 、shell 脚 本 、HDEFS 命 令 等 。ETL 工 作 流 
中 使 用 了 Sqoop 和 Hive 两 种 。ok 和 error 是 动作 节点 预定 义 的 两 个 XML 
元 素 ， 它 们 通常 被 用 来 指定 动作 节点 执行 成 功 或 失败 时 的 下 一 步 跳 转 
节点 。 这 些 元 素 在 Oozie 中 被 称 为 转向 元 素 。arg 元 素 包 含 动作 节点 的 
实际 参数 。sqoop-customer 和 sqoop-product 动 作 节点 中 使 用 arg 元 素 指 定 
Sqoop 命 令 行 参数 。command 元 素 表示 要 执行 一 个 shell 命 令 。 在 sqoop- 
sales_order 动 作 节 点 中 使 用 command 元 素 指 定 执行 Sqoop 作 业 的 命令 。 
file 和 archive 元 素 用 于 为 执行 MapReduce 作 业 提 供 有 效 的 文件 和 包 。 为 
了 避免 不 必要 的 混淆 ， 最 好 使 用 HDFS 的 绝对 路 径 。 我 们 的 三 个 Sqoop 
动作 节点 使 用 这 两 个 属性 为 Sgqoop 指 定 Hive 的 配置 文件 和 MySQL JDBC 
驱动 包 的 位 置 。 必 须 包 含 这 两 个 属性 Sqoop 动 作 节 点 才能 正常 执行 。 
script 元 素 包 含 要 执行 的 脚本 文件 ， 这 个 元 素 的 值 可 以 被 参数 化 。 我 们 
在 hivenode 动 作 节点 中 使 用 Script 元 素 指 定 需 要 执行 的 定期 装载 SQL 脚 
本 文件 。 


(3) 工作 流 参 数 化 


工作 流 定义 中 可 以 使 用 形式 参数 。 当 工作 流 被 Oozie 执 行 时 ， 所 有 
形 参 都 必须 提供 具体 的 值 。 参 数 定义 使 用 JSP 2.0 的 语法 ， 参 数 不 仅 可 
以 是 单个 变量 ， 还 支持 函数 和 复合 表达 式 。 参 数 可 以 用 于 指定 动作 节 
点 和 decision 节 点 的 配置 值 、XML 属 性 值 和 和 XML 元素 值 ， 但 是 不 能 在 
节点 名 称 、XML 属 性 名 称 、XML 元 素 名 称 和 节点 的 转向 元 素 中 使 用 参 
数 。 我 们 的 工作 流 中 使 用 了 $f{jobTracker} 和 ${nameNode} 两 个 参数 ， 
分 别 指定 YARN 资 源 管理 器 的 主机 端口 和 HDFS NameNode 的 主机 一 
im Ho 


(4) RANAS AK 


Oozie 的 工作 流 作 业 本 身 还 提供 了 丰富 的 内 建国 数 ，Oozie 将 它们 
统称 为 表达 式 语 言 国 数 (Expression Language Functions, fai FK EL Efl 
" 。 通 过 这 些 函 数 可 以 对 动作 节点 和 decision 节 点 的 谓词 进行 更 复杂 
的 参数 化 。 我 们 的 工作 流 中 使 用 了 wf:errorMessage 和 和 wf:lastErrorNode 
两 个 内 建国 数 。wf:errorMessage 国 数 返回 特定 节点 的 错误 消息 ， 如 果 
没有 错误 则 返回 空 字 符 串 。 错 误 消 息 常 被 用 于 排 错 和 通知 的 目的 。 
wf:lastErrorNode K ZUR ER HNTB, WR LA a Nhe [8] 
空 字符 串 。 


6. 部署 工作 流 


这 里 所 说 的 部 署 就 是 把 相关 文件 上 传 到 HDFS 的 对 应 目录 中 。 我 
们 需要 上 传 工 作 流 定义 文件 ， 还 要 上 传 fle、archive、script 元 素 中 指定 
的 文件 。 可 以 使 用 hdfs dfs -put 命 令 将 本 地 文件 上 传 到 HDFS，-f 参 数 的 
作用 是 ， 如 果 目 标 位 置 已 经 存在 同名 的 文件 ， 则 用 上 传 的 文件 覆盖 已 
存在 的 文件 。 


hdfs dfs -put -f workflow.xml /user/root/ 
hdfs dfs -put /etc/hive/conf.cloudera.hive/hive-site.xml 


/tmp/ 
hdfs dfs -put /root/mysql-connector-java-5.1.38-bin.jar /tmp/ 
hdfs dfs -put /root/regular etl.sql /tmp/ 


7. 建立 作业 属性 文件 


到 现在 为 止 我 们 已 经 定义 了 工作 流 ， 也 将 运行 工作 流 所 需 的 所 有 
文件 上 传 到 了 HDFS 的 指定 位 置 。 但 是 ， 仍 然 无 法 运行 工作 流 ， 因 为 
还 缺少 关键 的 一 步 : 必须 定义 作业 的 某 些 属性 ， 并 将 这 些 属 性 值 提交 
给 Oozie。 在 本 地 目录 中 ， 我 们 需要 创建 一 个 作业 属性 文件 ， 这 里 命 
为 job.properties， 其 中 的 内 容 如 下 : 


nameNode=hdfs://cdh2: 8020 

jobTracker=cdh2: 8032 

queueName=default 

oozie.use.system. libpath=true 

oozie.wf .application.path=${nameNode}/user/${user .name} 


注意 ， 此 文件 不 需要 上 传 到 HDFS。 这 里 稍微 解释 一 下 每 一 行 的 
含义 。nameNode 和 jobTracker 是 工作 流 定 义 里 面 的 两 个 形 参 ， 分 别 指 
示 NameNode 和 YARN 资 源 管理 器 的 主机 名 端口 号 。 工 作 流 定义 里 使 
用 的 形 参 ， 必 须 在 作业 属性 文件 中 赋值 。queueName 是 MapReduce 作 
业 的 队列 名 称 ， 用 于 给 一 个 特定 队列 命名 。 默 认 时 ， 所 有 的 MR 作业 
都 进入 “default”* 队 列 。queueName 主 要 用 于 给 不 同 目 的 作业 队列 赋予 不 
同 的 属性 集 来 保证 优先 级 。 为 了 让 工作 流 能 够 使 用 Oozie 的 共享 库 ， 要 
在 作业 属性 文件 中 设置 oozieuse.system.libpath=true o 
oozie.wf.application.path 属 性 设置 应 用 工作 流 定义 文件 的 路 径 ， 在 它 的 
赋值 中 ，${nameNode} 是 引用 第 一 行 的 变量 ，${user.name} 系统 变量 引 
用 的 是 Java 环 境 的 user.name 属 性 ， 通 过 该 属性 可 以 获得 当前 登录 的 操 
作 系 统 用 户 名 。 


8. 运行 工作 流 


经 过 一 连 串 的 配置 ， 现 在 已 经 万 事 俱 备 ， 可 以 运行 定期 装载 工作 
流 了 。 下 面 的 命令 用 于 运行 工作 流 作 业 。oozie 是 Oozie 的 客户 端 命 
令 ，job 表 示 指 定 作 业 属 性 ，-oozie 参 数 指示 Oozie 服 务 器 实例 的 URL，- 
config 参 数 指示 作业 属性 配置 文件 ，-run 告 诉 Oozie 运 行 作业 。 


oozie job -oozie http://cdh2:11000/00zie -config 
/root/job.properties -run 


此 时 从 Oozie Web 探 制 台 可 以 看 到 正在 运行 的 作业 ， 如 图 9-3 所 
"Tho 


图 9-3 ”运行 的 作业 


单 击 “Active Jobs” 标 签 ， 会 看 到 表格 中 只 有 一 行 ， 就 是 我 们 刚 运 
行 的 工作 流 作 业 。Job Id 是 系统 生成 的 作业 号 ， 它 唯一 标识 一 个 作业 。 
Name 是 我 们 在 workflow.xml 文 件 中 定义 的 工作 流 名 称 ，Status 为 
RUNNING ， 表 示 正 在 运行 。 页 面 中 还 会 显示 执行 作业 的 用 户 名 、 作 
业 创 建 时 间 、 开 始 时 间 、 最 后 修改 时 间 、 结 束 时 间 等 作业 属性 。 


单 击 作业 所 在 行 ， 可 以 打开 作业 的 详细 信息 窗口 ， 如 图 9-4 所 示 。 


图 9-4 作业 详细 信息 


这 个 页 面 有 上 下 两 部 分 组 成 。 上 面 是 以 纵向 方式 显示 作业 属性 ， 
内 容 和 9-3 所 示 的 一 行 相同 。 下 面 是 动作 的 信息 。 在 这 个 表格 中 会 列 出 
我 们 定义 的 工作 流 节 点 。 从 图 中 可 以 看 到 节点 的 名 称 和 类 型 ， 分 别 对 
应 workflow.xml 文 件 中 节点 定义 的 属性 和 元 素 ，Transition 表 示 转 向 的 
节点 ， 对 应 工作 流 定 义 文 件 中 *to” 属 性 的 值 。 从 Status 列 可 以 看 到 节点 
执行 的 状态 ， 图 中 表示 正在 运行 sqoop-sales_order 动 作 节 点 ， 前 面 的 
start, fork-node, sqoop-customer、 sqoop-product 都 已 执行 成 功 ， 后 面 
的 joining、hive-node、end 节 点 还 没有 执行 到 ， 所 以 图 中 没有 显示 。 这 
个 表格 中 只 会 显示 已 经 执行 或 正在 执行 的 节点 。 表 格 中 还 有 StartTime 
和 EndTime 两 列 ， 分 别 表示 节点 的 开始 和 结束 时 间 ，fork 节 点 中 的 三 个 
Sqoop 动 作 是 并 行 执行 的 ， 因 此 起 止 时 间 上 有 所 交叉。 


单 击 动作 所 在 行 ， 可 以 打开 动作 的 详细 信息 窗口 ， 如 图 9-5 所 示 。 


Job (Name: regular etl/JobId: 0000027-160707165816318-oozie-oozi-W) 


2n desi (Name: TAGES jobId: 0000027- 1607071 65816318-o0zle-oozi-W) x 
Action Info Actio figuration Child Job UR 
Name} hive-noce 
Type: hive 
Transition: 
Start Time: Mon, 11 Jul 2016 03:15:42 GMT 
End Time: 
t Status: RUNNING 
Error Code: 
Error Message: 
i External ID: job 1467881802255 0215 
External Status: RUNNING 
Console URL http: cdh2:8088/proxy/application 1467881802255 0215/ | 2 
Tracker URI: cdh2:8032 = 
Actit 
i Transition StartTime EndTime 
1 TART. OK fork-node Mon, 11 Jul 2016 03:12:39 
2 FORK OK » Mon, 11 Jul 3:12:39 
3 qoop OK ning Mo 1 Ju 12:40 
4 joop OK ning Mo t 
5 sqoop OK joining Mor 
JOIN OK hive-node Mon, 11 Jul 2016 03:15:42 
hive RUNNING Mon, 11 Jul 2016 03:15:42 


图 9-5 ”动作 详细 信息 


这 个 窗口 中 显示 一 个 节点 的 12 个 相关 属性 。 从 上 图 中 可 以 看 到 正 
在 运行 的 hive-node 节 点 的 属性 ， 注 意 Console URL 属 性 ， 单 击 它 右 侧 的 
图 标 ， 可 以 打开 真正 执行 动作 的 MapReduce 作 业 的 跟踪 页 面 ， 如 图 9-6 
所 示 。 Oozie 中 定义 的 动作 ， 实 际 上 是 作为 MapReduce 之 上 的 应 用 来 执 
行 的 。 从 这 个 页 面 可 以 看 到 相关 MapReduce 作 业 的 属性 ， 包 括 作业 
ID、 总 的 Map/Reduce 数 、 已 完成 的 Map/Reduce 数 、Map 和 Reduce 的 处 
理 进 度 等 信息 。 


MapReduce Application 
application 1467881802255 0215 


9-6 ”执行 动作 的 MapReduce 作 业 


当 Oozie 作 业 执 行 完 ， 可 以 在 图 9-3 所 示 页 面 的 “All Jobs” 标 签 页 看 
到 ，Status 列 已 经 从 RUNNING 变 为 SUCCEEDED， 如 图 9-7 所 示 。 


图 9-7 完成 的 工作 流 


可 以 看 到 ， 整 个 工作 流 执行 了 将 近 31 分 钟 。 细 心 的 读者 可 能 发 现 
了 ， 显 示 的 时 间 点 是 3 点 。 这 个 时 间 比 较 奇 怪 ， 它 和 我 们 手工 执行 工作 
流 的 时 间 相 差 了 8 小 时 。 造 成 这 个 问题 的 原因 稍 后 再 做 解释 。 

为 了 验证 数据 是 否 正确 ， 我 们 查看 cdc_time 表 的 数据 。 因 为 整个 
定期 装载 过 程 的 最 后 一 条 HiveQL 语 句 是 更 新 cdc_time 表 ， 如 果 它 被 正 
确 更 新 ， 说 明 前 面 的 语句 都 成 功 执行 了 (Hive 的 任何 一 步 出 错 都 会 中 
断 退 出 ， 不 会 继续 执行 后 面 的 语句 ) 。 查 询 及 其 结果 如 下 所 示 ， 可 以 
看 到 日 期 已 经 改 为 当前 日 期 ， 说 明定 期 装载 工作 流 执行 正确 。 


0: jdbc:hive2://cdh2:10000/dw» select * from rds.cdc time; 


十 = 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +==+ 
| cde_time.last_load | cdc time.current load | 
本 一 = 一 = +--+ 
1020 16-051 1-:20T6207-11 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一- 一 一 一- 一 -一 +--+ 
row selected (0.289 secon ds) 


9.4 ”建立 协调 器 作业 定期 目 动 执行 工作 流 


工作 流 作业 通常 都 是 以 一 定 的 时 间 间 隔 定 期 执行 的 ， 例 如 我 们 的 
定期 装载 ETL 作 业 需 要 在 每 天 2 点 执行 一 次 。Oozie 的 协调 器 作业 能 够 
在 满足 谓词 条 件 时 触发 工作 流 作 业 的 执行 。 现 在 的 谓词 条 件 可 以 定义 
为 数据 可 用 、 时 间或 外 部 事件 ， 将 来 还 可 能 扩展 为 支持 其 他 类 型 的 事 
件 。 协 调 器 作业 还 有 一 种 使 用 场景 ， 就 是 需要 关联 多 个 周期 性 运行 工 


作 流 作业 。 它 们 运行 的 时 间 间 隔 不 同 ， 前 面 所 有 工作 流 的 输出 一 起 成 
为 下 一 个 工作 流 的 输入 。 例 如 ， 有 5 个 工作 流 ， 前 4 个 顺序 执行 ， 每 隔 
15 分 钟 运行 一 个 ， 第 5 个 工作 流 每 隔 60 分 钟 运行 一 次 ， 前 面 4 个 工作 流 
的 输出 共同 构成 第 5 个 工作 流 的 输入 。 这 种 工作 流 链 有 时 被 称 为 数据 应 
用 管道 。Oozie 协 调 器 系统 允许 用 户 定 义 周 期 性 执行 的 工作 流 作 业 ， 还 
可 以 定义 工作 流 之 间 的 依赖 天 系 。 和 工作 流 作业 类 似 ， 定 义 协 调 器 作 
业 也 要 创建 配置 文件 和 属性 文件 。 


1. 建立 协调 器 作业 配置 文件 


建立 内 容 如 下 的 coordinator.xml 文 件 : 


«coordinator-app name-"regular etl-coord" frequency="${coord:days(1)}" start="${start}" 
end="${end}" timezone="${timezone}" xmlns="uri:oozie:coordinator:0.1"> 
<action> 
<workflow> 
<app-path>${workflowAppUri }</app-path> 
<configuration> 
<property> 
<name> obTracker</name> 
<value>${jobTracker}</value> 
</property> 
<property> 
<name >nameNode< / name> 
<value>${nameNode}</value> 
</property> 
<property> 
<name>queueName</name> 


<value>${queveName }</value> 


/action» 


«/coordinator-app» 


在 上 面 的 XML 文件 中 ， 我 们 定义 了 一 个 名 为 regular_etl-coord 的 协 
调 器 作业 。 coordinator-app 元 素 的 frequency 属 性 指定 工作 流 运行 的 频 
率 。 我 们 用 Oozie 提 供 的 ${coord:days(int n)) ELA A CIRA, AŽ 
返回 0 天 的 分 钟 数 ， 示 例 中 的 n 为 1， 也 就 是 每 隔 1440 分 钟 运行 一 次 工 
作 流 。start 属 性 指定 起 始 时 间 ，end 属 性 指定 终止 时 间 ，timezone 属 性 
指定 时 区 。 这 三 个 属性 都 赋予 形 参 ， 在 属性 文件 中 定义 参数 值 。xmlns 


属性 值 是 常量 字符 串 “uri:oozie:coordinator:0.1”。${workflowAppUri} 形 
参 指 定 应 用 的 路 径 ， 就 是 工作 流 定 义 文 件 所 在 的 路 径 。 
${jobTracker}、${nameNode} 和 ${queueName} 形 参与 前 面 workflow.xml 
工作 流 文件 中 的 含义 相同 。 


2. 建立 协调 器 作业 属性 文件 


建立 内 容 如 下 的 job-coord.properties 文 件 : 


nameNode-hdfs://cdh2:8020 

jobTrackerzcdh2:8032 

queueName-default 

oozie.use.system.libpath-true 

o0ozie.coord.application. path=${nameNode}/user/${user .name} 
timezone=UTC 

start=2016-07-11T06:00Z 

end=2020-12-31T07:15Z 

workf LowAppUri=${nameNode}/user/${user .name} 


这 个 文件 定义 协调 器 作业 的 属性 ， 并 给 协调 器 作业 定义 文件 中 的 
形 参 赋值 。 该 文件 的 内 容 与 工作 流 作 业 属 性 文件 的 内 容 类 似 。 
oozie.coord.application.path 参 数 指定 协调 器 作业 定义 文件 所 在 的 HDFS 
路 径 。 需 要 注意 的 是 ，start、end 变 量 的 赋值 与 时 区 有 关 。 Oozie 默 认 
的 时 区 是 UTC， 而 且 即 便 在 属性 文件 中 设置 了 timezone=GMT+0800 也 
不 起 作用 。 我 们 给 出 的 起 始 时 间 点 是 2016-07-11T06:00Z， 实 际 要 加 上 
8 个 小 时 ， 才 是 我 们 所 在 时 区 真正 的 运行 时 间 ， 即 14 点 (为 了 便于 及 时 
验证 运行 效果 ， 设 置 这 个 时 间 点 ) 。 因 此 在 定义 时 间 点 时 一 定 要 注意 
时 间 的 计算 问题 ， 这 也 就 是 在 前 面 的 工作 流 演示 中 ， 控 制 台 页 面 里 看 
到 的 时 间 是 凌晨 3 点 的 原因 ， 真 实时 间 是 上 午 11 操 。 


3. 部署 协调 器 作业 


执行 下 面 的 命令 将 coordinatorxml 文件 上 传 到 
o0zie.coord.application.path 参 数 指定 的 HDFS 目 录 中 。 


hdfs dfs -put -f coordinator.xml /user/root/ 


运行 协调 器 作业 


执行 下 面 的 命令 运行 协调 器 作业 : 


oozie job -oozie http://cdh2:11000/00zie -config /root/job- 
coord.properties -run 


此 时 从 Oozie Web 控 制 台 可 以 看 到 准备 运行 的 协调 器 作业 ， 作 业 的 
状态 为 PREP， 如 图 9- 8 所 示 。 PREP 状 态 表 示 已 经 将 作业 提交 给 oOozie, 
并 且 准 备 运 云 行 。 


图 9-8 “提交 协调 器 作业 


当时 间 到 达 14:00 时 ， 满 足 了 时 间 谓 词 条 件 ， 协 调 器 作业 开始 运 
行 ， 作 业 状 态 由 PREP 变 为 RUNNING， 如 图 9-9 所 示 。 


图 9-9 ”运行 协调 器 作业 


单 击 作业 所 在 行 ， 可 以 打开 协调 器 作业 的 详细 信息 窗口 ， 如 图 9- 
10 所 示 。 


Job (Name: regular eti-coord /coordJobId: 0000028-160707165816318-oozie-oozi-C) x 


Coord Job Info | Coord Job Definition Coord Job Configuration || Coord Job Log || Coord Action Reruns 


1 


Job Id: | 0000028-160707185816318-002e-002-C 


User: root 


Group: 
Frequency: 1 
Unit; DAY 
Parent Bundle: A 
Start Time: | Mon, 11 Jul 2016 06:00:00 GMT 
Next Matd: | Tue, 12 Jul 2016 06:00:00 GMT 
End Time: | Thu, 31 Dec 2020 07:15:00 GMT. 
Pause Time: 


Concurrency: 1 


Actions 
Action Id Status Extld ErrorCode Created Time Nominal Time Las 
1 0000028-160707165816318-o02ie-00zi-C... RUNNING  0000029-160707165816318-o00ze- Mon, 11 Jul 2016 05:58:41 .. Mon. 11 Jul 2016 06: Mo 


图 9-10 ”协调 器 作业 详细 信息 


单 击 协调 器 作业 所 在 行 ， 可 以 打开 调用 的 工作 流 作 业 的 详细 信息 
窗口 ， 如 图 9-11 所 示 。 这 个 页 面 和 图 9-4 所 示 的 是 同一 个 页 面 ， 但 这 时 
在 “Parent Coord” 字 段 显 示 了 协调 器 作业 的 Job Ido 


Job (Name: regular etl/JobId: 0000029-160707165816318-00zie-00Zi-W) x 
Job Info | Job Definition | Job Configuration || Job Log || Job DAG 


25. | 


E 


Job Id: | 0000029-160707165816318-002e0021-W 


Name:| regular. etl 


App Path: hdfs://cch2:8020/user/root 
Run: 0 


Status} RUNNING 


Group: 
Parent Coord 


Create Time: Mon, 11 Jul 2016 06:00:00 GMT 
Start Time: Mon, 11 Jul 2016 06:00:00 GMT 


Last Modified: Mon, 11 Jul 2016 06:02:02 GMT 


End Time: 
Actions 
Action Id Name Type Transition StartTime EndTime 
1 0000029-1607071065810318-00zle-00z:-W(: start: start: START. OK Tork-node Mon, 11 Jul 2016 06:00:00 ... | Mon, 11 Jul 2016 06:00:00 
2 0000029-160707165816318-00zie-o0zi-WGfork-n | fork-node “FORK: OK * Mon. 11 Jul 2016 06:00:00 Mon. 11 Jul 2016 06:00:00 
3 0000029-160707165816318-o0zie-oczi-W(gsqcop. | sqoop-cus sqoop OK joining Mon, 11 Jul 2016 06:00:00 ... | Mon, 11 Jul 2016 06:01:00 
4 0000029-160707165816318-oozie-oczi-W)sqcop..| saoop-pro sqoop OK joining Mon, 11 Jul 2016 06:00:05 Mon, 11 Jul 2016 06:02:01 
5 0000029-160707165816318-o0zie-ooz-W@sqoop..} sqoop-sale... sqoop RUNNING Mon, 11 Jul 2016 06:00:10 


图 9-11 工作 流 作业 的 详细 信息 


9.5 “Oozie 优 化 


Oozie 本 身 并 不 真正 运行 工作 流 中 的 动作 ， 它 在 执行 工作 流 中 的 动 
作 节 点 时 ， 会 先 启 动 一 个 发 射 器 (Launcher) 。 发 射 器 类 似 于 一 个 
YARN 作 业 ， 由 一 个 AppMaster 和 一 个 Mapper 组 成 ， 只 负责 运行 一 些 基 
本 的 命令 ， 如 为 执行 Hive CLIP-| P tab “hive”, Hive Beeline € P 
端的 “hive2”、Pig CLI, Sqoop. Spark Driver, Bash shell 等 。 然 后 ， 由 
这 些 命令 产生 一 系列 真正 执行 工作 流动 作 的 YARN 作 业 。 


值得 注意 的 是 ，YARN 并 不 知道 发 射 器 和 它 所 产生 的 作业 之 间 的 
依赖 关系 ， 这 在 “hive2” 动 作 中 表现 得 尤为 明显 。 “hive2” 动 作 的 发 射 器 
连接 到 HiveServer2， 然 后 HiveServer2 产 生动 作 相 关 的 作业 。 


知道 了 Oozie 的 运行 机 制 ， 就 可 以 有 针对 性 地 优化 Oozie 工 作 流 的 
执行 了 。 下 面 以 Hive 动 作为 例 进行 说 明 。 


1. 减少 给 发 射 器 作业 分 配 的 资源 


发 射 器 作业 只 需要 一 个 很 小 的 调度 ( 记 住 只 有 一 个 Mapper) ， 
此 它 的 AppMaster 所 需 资 源 参 数值 应 该 设置 得 很 低 ， 以 避免 因 消耗 过 多 
内 存 阻 碍 了 后 面 工作 流 队 列 的 执行 。 可 以 通过 配置 以 下 动作 属性 值 修 
改 发 射 器 使 用 的 资产 。 


e oozie.launcher.yarn.app.mapreduce.am.resource.mb : 发 射 器 使 用 
的 总 内 存 大 小 。 

* oozie.launcher.yarn.app.mapreduce.am.command-opts : 需要 在 
Oozie 命 令 行 显 式 地 使 用 “-Xmx” 参 数 限制 Java 堆 栈 的 大 小 ， 典 型 
地 配置 为 80% 的 物理 内 存 。 如 果 设 置 的 太 低 ， 可 能 出 现 
OutOfMemory$8ix; 如 果 太 高 ， 则 YARN 可 能 会 因为 限额 使 用 
不 当 杀 和 死 Java 容 器 。 


2。 减少 给 “hive2” 发 射 器 作业 分 配 的 资源 
类 似 地 ， 配 置 以 下 动作 属性 值 : 


。 oozie.launcher.mapreduce.map.memory.mb 


e oozie.launcher.mapreduce.map.java.opts 


3。 利 用 YARN 队 列 名 


如 果 能 够 获得 更 高 级 别 的 YARN 队 列 名 称 ， 可 以 为 发 射 器 配置 
oozie.launcher.mapreduce. job.queuename 属 性 。 对 于 实际 的 Hive 查 询 ， 
可 以 如 下 配置 : 


。 在 Oozie 动 作 节 点 中 设置 mapreduce.job.queuename 属 性 。 这 种 方 
法 仅 对 “hive” 动 作 有 效 。 

。 在 HiveQL 脚 本 开头 插入 “set mapreduce.job.queuename = *** ;” 命 
令 。 这 种 方法 对 “hive”* 和 “hive2” 动 作 都 起 作用 。 


4. 设置 Hive 查 询 的 AppMaster 资 源 


如 果 默 认 的 AppMaster 资 源 对 于 实际 的 Hive 查 询 来 说 太 大 了 ， 可 以 
修改 它们 的 大 小 : 


。 在 Oozie 动 作 节 点 中 设置 yarn.app.mapreduce.am.resource.mb 和 
yarn.app.mapreduce.am. command-opts 属 性 ， 或 者 
tez.am.resource.memory.mb 和 tez.am.launch.cmd-opts 属性 ( 4 
Hive 使 用 了 Tez 执 行 引擎 时 ) 。 这 种 方法 仅 对 “hive” 动 作 有 效 。 

。 在 HiveQL 脚 本 开头 插入 设置 属性 的 set 命 令 。 这 种 方法 对 “hive” 
和 “hive2” 动 作 都 起 作用 。 


注意 ， 对 于 上 面 的 1、2、4 和 条， 不 能 配置 低 于 


yarn.scheduler.minimum-allocation-mb 的 值 。 


5。 合 并 HiveQL 脚 本 


可 以 将 某 些 步骤 合并 到 同一 个 HiveQL 脚 本 中 ， 这 会 降低 Oozie 轮 
询 YARN 的 开销 。Oozie 会 向 YARN 询 问 一 个 查询 是 否 结束 ， 如 果 是 就 
启动 另 一 个 发 射 器 ， 然 后 该 发 射 器 启动 男 一 个 Hive 会 话 。 当 然 ， 对 于 
出 现 查询 出 错 的 情况 ， 这 种 合并 做 法 的 控制 粒度 较 粗 ， 可 能 在 重新 启 
动 动作 前 需要 做 一 些 手工 清理 的 工作 。 


6. 并行 执行 多 个 步骤 

在 拥有 足够 YARN 资 源 的 前 提 下 ， 尽 量 将 可 以 并 行 执行 的 步骤 放 
到 Oozie Fork/Join 的 不 同 分支 中 。 

7。 使 用 Tez 计 算 框 架 


在 很 多 场景 下 ，Tez 计 算 框 架 比 MapReduce 效 率 更 高 。 例 如 ，Tez 
会 为 Map 和 Reduce 步 骤 重 用 同一 个 YARN 容 器 ， 这 对 于 连续 的 查询 将 
降低 YARN 的 开销 ， 同 时 减少 中 间 处 理 的 磁盘 IO。 


9.6 ”小结 


(1) cron 服 务 是 Linux 下 用 来 周期 性 地 执行 某 种 任务 或 处 理 某 些 
事件 的 系统 服务 ， 默 认 安 沪 并 启动 。 


(2) 通过 crontab 命 令 可 以 创建 、 编 辑 、 显 示 或 删除 crontab 文 件 。 


(3) crontab 文 件 有 固定 的 格式 ， 其 内 容 定 义 了 要 执行 的 操作 ， 可 
以 是 系统 命令 ， 也 可 以 是 用 户 自己 编写 的 脚本 文件 。 


(4) crontab 执 行 要 注意 环境 变量 的 设置 。 


(5) Oozie 是 一 个 管理 Hadoop 作 业 、 可 伸缩 、 可 扩展 、 可 靠 的 工 
作 流 调度 系统 ， 种 作业 : 工作 流 作 业 、 协 调 器 作业 和 
Bundle 作 业 。 


(6) Oozie 的 工作 流 定义 中 包含 控制 节点 和 动作 节点 。 控 制 节点 
控制 着 工作 流 的 开始 、 结 束 和 作业 的 执行 路 径 ， 动 作 节点 触发 计算 或 
处 理 任务 的 执行。 

(7) oozie 的 协调 器 作业 能 够 在 满足 谓词 条 件 时 触发 工作 流 作业 
的 执行 。 现 在 的 亩 词 条 件 可 以 定义 为 数据 可 用 、 时 间或 外 部 事件 。 

(8) 配置 协调 器 作业 的 时 间 触 发 条 件 时 ， 一 定 要 注意 进行 时 区 的 
换算 。 

(9) 通过 适当 配置 Oozie 动 作 的 属性 值 ， 可 以 提高 工作 流 的 执行 
效率 。 


第 10 章 
< 维度 表 技 术 > 


前 面 章节 中 ， 我 们 用 Hadoop 工 具 实 现 了 多 维 数据 仓库 的 基本 功 
能 ， 如 使 用 Sqgoop 和 Hive 实 现 ETL 过 程 ， 使 用 Oozie 定 期 执行 ETL 任 务 
等 。 本 章 将 继续 讨论 常见 的 维度 表 技 术 。 

我 们 以 最 简单 的 “增加 列 * 开 始 ， 继 而 讨论 维度 子 集 、 和 角色 扮 演 维 
度 、 层 次 维度 、 退 化 维度 、 杂 项 维度 、 维 度 合并 、 分 段 维度 等 基本 的 
维度 表 技 术 。 这 些 技术 都 是 在 实际 应 用 中 经 常 使 用 的 。 在 说 明 这 些 技 
术 的 相关 概念 和 使 用 场景 后 ， 我 们 以 销售 订单 数据 仓库 为 例 ， 给 出 实 
现代 码 和 测试 过 程 。 实 现 工具 仍然 使 用 Hive 和 Sqoop， 在 必要 时 会 对 前 
面 已 经 完成 的 ETL 脚 本 做 出 适当 的 修改 。 


10.1 增加 列 


业务 的 扩展 或 变化 是 不 可 避免 的 ， 尤 其 像 互 联网 行业 ， 需 求 变更 
已 经 成 为 常态 ， 唯 一 不 变 的 就 是 变化 本 身 ， 其 中 最 常 磁 到 的 扩展 是 给 
一 个 已 经 存在 的 表 增 加 列 。 


以 销售 订单 为 例 ， 假 设 因 为 业务 需要 ， 在 操作 型 源 系 统 的 客户 表 
中 增加 了 送 货 地 址 的 4 个 字段 ， 并 在 销售 订单 表 中 增加 了 销售 数量 字 
段 。 由 于 数据 源 表 增加 了 字段 ， 数 据 仓库 中 的 表 也 要 随 之 修改 。 本 节 
说 明 如 何在 客户 维度 表 和 销售 订单 事实 表 上 添加 列 ， 并 在 新 列 上 应 用 
SCD2， 以 及 对 定时 装载 脚本 所 做 的 修改 。 图 10-1 显 示 了 增加 列 后 的 数 
据 仓 库 模式 。 


| product dim | customer_dim 


| product sk £pi? <i> customer sk £pi» XI | 
| product code customer number 

| product, name customer name 

| product_category _ | customer_street_address 

| version Ci] customer zip code 


effective date 
expiry. date 


customer city 
customer state 
[shipping address | 
|! shippingz zip code 

| shipping city 


| [shipping state — | 
xc E version 
ee] sales_order_fact effective date 
order sk €fi35 expiry. date 


customer sk <fi2> 
product sk <fil> 
_| order_date_sk <fi4> 
^| order amount 


[order quantity | >o 
LLLLA— | — 


| order dim date dim 
| order sk Spi» XM» date sk <pi> «WM» 
| order number date 
| version nonth 
| effective_date month name 
expiry date quarter 
year 


图 10-1 增加 列 后 的 数据 仓库 模式 


1. 修改 数据 库 模 式 


使 用 下 面 的 SQL 语句 修改 MySQL 中 的 源 数 据 库 模 式 。 


USe 


source; 
alter table 


customer 
add 


shipping address varchar 
(50) after 


customer state 
, add 


shipping zip code int after 


shipping. address 
, add 


shipping city varchar 


(30) after 


shipping. zip. code 
, add 


shipping state varchar 
(2) after 


shipping city ; 
alter table 


sales order add 
order quantity int after 
order amount ; 
以 上 语句 给 客户 表 增 加 了 四 列 ， 表 示 客 户 的 送 货 地 址 。 销 售 订单 
表 在 销售 金额 列 后 面 增 加 了 销售 数量 列 。 注 意 after 关 键 字 ， 这 是 
MySQL 对 标准 SQL 的 扩展 ，Hive 目 前 还 不 支持 这 种 扩展 ， 只 能 把 新 增 


列 加 到 已 有 列 的 后 面 ， 分 区 列 之 前 。 在 关系 理论 中 ， 列 是 没有 顺序 
的 。 


使 用 如 下 HiveQL 语 句 修改 RDS 数 据 库 模式 。 


USe 


rds; 
alter table 


customer add 


columns 
(shipping address varchar 


(50) comment 


' shipping address' 
, Shipping zip code int comment 


'shipping zip code' 
, Shipping city varchar 


(30) comment 


'shipping city' 
, Shipping state varchar 


(2) comment 


'shipping state') ; 
alter table 


sales order add 
columns (order quantity int comment 


'order quantity') ; 


上 面 的 DDL 语 句 和 MySQL 的 很 像 ， 增 加 了 对 应 的 数据 列 ， 并 添加 
了 列 的 注释 。RDS 库 表 使 用 的 是 默认 的 文本 存储 格式 ， 因 此 可 以 直接 
使 用 alter table 语 句 修改 表 结 构 。 需 要 注意 的 是 RDS 表 中 列 的 顺序 要 和 
源 数据 库 严格 保持 一 致 。 因 为 客户 表 和 产品 表 是 全 量 覆 盖 抽取 数据 ， 
所 以 如 果 产 和 目标 顺序 不 一 样 ， 将 产生 错误 的 结果 。 


使 用 下 面 的 HiveQL 语 句 修改 DW 数据 库 模 式 。 


use dw; 
-- 修改 客户 维度 表 
-- 原 表 改 名 作为 备份 表 


alter table customer dim rename to customer dim old; 


- - 建立 新 表 

create table customer dim ( 
customer sk int comment 'surrogate key', 
customer number int comment 'number', 
customer name varchar(50) comment 'name', 
customer street address varchar(50) comment 'address', 
customer zip code int comment 'zipcode', 
customer city varchar(30) comment 'city', 
customer state varchar(2) comment 'state', 
shipping. address varchar(50) comment 'shipping address', 
shipping zip code int comment 'shipping zip code', 
shipping city varchar(30) comment 'shipping city', 
shipping state varchar(2) comment 'shipping state', 


version int comment 'version', 
effective date date comment 'effective date', 
expiry date date comment 'expiry date' 


clustered by (customer sk) into 8 buckets 
stored as orc tblproperties ('transactional'-'true'); 


-- 导入 备份 表 数 据 
insert into customer dim 
select customer sk,customer number,customer name, 
customer street address,customer zip code,customer city, 
customer state,null,null,null,null, 
version,effective date,expiry date 
from customer dim old; 


-- 删除 备份 表 


drop table customer dim old; 


-- 修改 销售 订单 事实 表 
alter table sales order fact rename to sales order fact old; 
create table sales order fact ( 
order sk int comment 'order surrogate key', 
customer sk int comment 'customer surrogate key', 
product sk int comment 'product surrogate key', 
order date sk int comment 'date surrogate key', 
order amount decimal(10 , 2 ) comment 'order amount', 
order quantity int comment 'order quantity' 


clustered by (order sk) into 8 buckets 

stored as orc tblproperties ('transactional'='true'); 
insert into sales order fact select *,null from 
sales order fact old; 

drop table sales order fact old; 


上 面 这 段 代码 修改 DW 数据 库 模 式 ， 它 比 之 前 的 RDS 表 修改 语句 
要 复杂 。 读 者 不 免 产 生 这 样 的 疑问 : 明明 可 以 直接 在 表 上 添加 列 ， 为 
何 要 新 建 一 个 表 ， 再 把 效 据 装 载 到 新 表 中 呢 ? 原因 是 老 版 本 的 Hive 对 
ORC 格 式 表 的 模式 修改 ， 尤 其 是 增加 列 的 支持 有 很 多 问题 ， 只 有 通过 
新 建 表 并 重新 组 织 数据 的 方式 才能 正常 执行 。 看 下 面 的 简单 例子 就 会 


更 清楚 了 。 


USe 


test; 
drop table if exists 


t1; 
create table 


t1(c1L int 


, C2 string) 
clustered by 


(c1) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


t1 values 


(1, 'aaa'); 
alter table 


t1 add 


columns (c3 string) ; 
update 


t1 set 
c2-'ccc' where 


c1=1; 
select * from 


t1; 


上 面 的 代码 建 了 一 个 ORC 表 ,插入 一 行 数据 ， 添 加 一 列 ， 修 改 数 
据 ， 最 后 再 查询 数据 。3 vm 天 系数 据 库 中 很 普通 的 操作 ， 最 后 一 步 
查询 居然 显 示 如 下 出 错 信 言 息 : 


Error: java.io.IOException: 
java.lang.ArrayIndexOutOfBoundsException: 9 (state-,code-0) 


本 示例 是 在 Hive 1.1.0 上 执行 的 ，JIRA 上 说 2.0.0 修 复 了 ORC 表 模式 
修改 的 问题 ， 可 以 参考 以 下 链接 的 说 明 
https://issues.apache.org/jira/browse/HIVE-11981. 


注意 ， 在 低 版 本 的 Hive 上 修改 ORC 表 的 模式 ， 特 别 是 增加 列 时 一 
定 要 慎重 。 当 数据 量 很 大 时 ， 这 会 是 一 个 相当 费时 并 会 占用 大 量 空间 
的 操作 。 


2. 重建 Sqoop 作 业 


由 于 增加 了 数据 列 ， 销 售 订单 表 的 增 量 抽取 作业 要 把 销售 数量 这 
个 新 增 列 的 数据 抽取 过 来 ， 因 此 需要 重建 。 使 用 下 面 的 脚本 重建 
Sqoop 作 业 ， 增 加 order_quantity 列 。 


last value-'sqoop job --show myjob incremental import --meta- 
connect 

jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep 
incremental.last.value | awk '{print $3} 

sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 
--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order_number, customer_number, product_code, 
order_date, entry_date, order_amount, 

order_quantity 


n N 

--hive-import \ 

--hive-table rds.sales order \ 
--incremental append \ 
--check-column order number \ 
--last-value $1ast value 


这 段 命令 的 意思 已 经 在 9.2 节 “建立 定期 装载 工作 流 ” 中 解释 过 了 ， 
这 里 只 是 在 --columns 参 数 的 最 后 增加 了 order_quantity 列 。 和 维度 表 一 
样 ， 要 注意 源 表 和 目标 表 的 顺序 保持 一 致 。 


3。 修 改定 期 装载 regular_etl.sql 文 件 


修改 数据 库 模 式 后 ， 还 要 修改 已 经 使 用 的 定期 装载 HiveQL 脚 本 ， 
增加 对 新 增 数据 列 的 处 理 。 我 们 只 需要 对 regular_etl.sql 文 件 中 客户 维 
度 表 和 销售 订单 事实 表 的 部 分 进行 修改 。 


- - 装载 customer 维 度 


-- 设置 已 删除 记录 和 地 址 相关 列 上 scd2 的 过 期 ， 用 <=> 运 算 符 处 理 nul1 值 。 
update 


customer dim set 


expiry date = $(hivevar:pre date) 
where 


customer dim.customer sk in 
(select 


a.customer sk 
from 


(select 


customer sk,customer number,customer street address, 
customer zip code,customer city,customer state, 


shipping address,shipping zip code,shipping city,shipping sta 
te 

from 
customer dim where 


expiry date = ${hivevar:max_date}) a 


left join 
rds.customer b on 


a.customer number - b.customer number 
where 


b.customer number is null or 


(!(a.customer street address «-» 
b.customer street address) 


or !(a.shipping address <=> b.shipping address) )) 


同 客户 地 址 一 样 ， 新 增 的 送 货 地 址 列 也 是 用 SCD2 新 增 历 En 
与 8.4 节 建立 的 定期 装载 脚本 中 相同 部 分 比较 ， 会 发 现 这 里 使 用 了 一 
新 的 关系 操作 符 “<=>”， 这 是 因为 原来 的 脚本 中 少 判 断 了 一 种 情况 。 
在 源 系统 库 中 ， 客 户 地 址 和 送 货 地 址 列 都 是 允许 为 空 的 ， 这 样 的 设计 
是 出 于 灵活 性 和 容错 性 的 考虑 。 我 们 以 送 货 地 址 为 例 进行 讨论 。 


fs FH*t1.shipping. address <> t2. shipping address"am 条 件 判 断送 货 地 址 
否 更 改 ， 根 据 不 等 号 两 边 的 值 是 否 为 空 ， 会 出 现 以 下 三 种 情况 : 


(1) tl.shipping_address 和 t2.shipping_address 都 不 为 空 。 这 种 情况 
下 如 果 两 者 相等 则 返回 false， 说 明 地 址 没有 变化 ; 否则 返回 true， 说 明 
HOURS, SABIE HA. 


(2) tl.shipping_address 和 t2.shipping_address 都 为 空 。 两 者 的 比较 
会 演变 成 null<>null， 根 据 Hive 对 “<>” 操 作 符 的 定义 ， 会 返回 NULL。 
因为 查询 语句 中 只 会 返回 判断 条 件 为 true 的 记录 ， 所 以 不 会 返回 数据 
行 ， 这 符合 我 们 的 逻辑 ， 说 明 地 址 没有 改变 


(3) tl.shipping_address 和 t2.shipping_address 只 有 一 个 为 空 。 就 是 
说 地 址 列 从 NULL 变 成 非 NULL ， 或 者 从 非 NULL 变 成 NULL ， 这 种 情 


况 明 显 应 该 新 增 一 个 版 本 ,但 根据 “<<>” 的 定义 ， 此 时 返回 值 是 
NULL， 查 询 不 会 返回 行 ， 不 符合 我 们 的 需求 。 


现在 使 用 “!(a.shipping_address <=> b.shipping_address)” 作 为 判断 条 
件 ， 我 们 先 看 一 下 Hive 里 是 怎么 定义 “<=>” 操 作 符 的 : A <=> B 一 
Returns same result with EQUAL(=) operator for non-null operands, but 
returns TRUE if both are NULL, FALSE if one of the them is NULL。 从 
这 个 定义 可 知 ， 当 A 和 B 都 为 NULL 时 返回 TRUE， 其 中 一 个 为 NULL 时 
返回 FALSE， 其 他 情况 与 等 号 返回 相同 的 结果 。 下 面 再 来 看 这 三 种 情 
m: 
(1) tl.shipping_address 和 t2.shipping_address 都 不 为 空 。 这 种 情况 
下 如 果 两 者 相等 则 返回 !(true)， 即 false， 说 明 地 址 没有 变化 ， 否 则 返 
回 !(false)， 即 true， 说 明 地 址 改变 了 ， 符 合 我 们 的 逻辑 。 


(2) tl.shipping_address 和 t2.shipping_address 都 为 空 。 两 者 的 比较 
会 演变 成 !null<=>nul) ， 根 据 “<=>” 的 定义 ， 会 返回 !(true) ， 即 返回 
false。 因 为 查询 语句 中 只 会 返回 判断 条 件 为 true 的 记录 ， 所 以 查询 不 会 
返回 行 ， 这 符合 我 们 的 逻辑 ， 说 明 地 址 没有 改变 


(3) tl.shipping_address 和 t2.shipping_address 只 有 一 个 为 空 。 根 据 
“<=>” 的 定义 ， 此 时 会 返回 !(false)， 即 true， 查 询 会 返回 行 ， 符 合 我 们 
的 需求 。 

空 值 的 逻辑 判断 有 其 特殊 性 ， 为 了 避免 不 必要 的 麻烦 ， 数 据 库 设 
计时 应 该 尽量 将 字段 设计 成 非 空 ， 必 要 时 用 默认 值 代 替 NULL ， 并 将 
此 作为 一 个 基本 的 设计 原则 。 


- 处 理 地 址 列 上 scd2 的 新 增 行 


insert into 


customer dim 
select row number() 


O 

t 
t1 
S, 
t1 
t1 


了 


t1 


, 
ti 
fr 


( 


t 


f 


e 
in 


r 


t 


ver (order by 


1.customer number) + t2.sk max, 
.customer number,ti.customer name,ti.customer street addres 


.customer zip code,ti.customer city,ti.customer state, 
.shipping address,ti1.shipping zip code 


.shipping city,ti.shipping state 


.version, ti.effective_date, ti.expiry_date 
om 


select 


2.customer_number customer_number, 
t2.customer_name customer_name, 
t2.customer_street_address customer_street_address, 
t2.customer zip code customer zip code, 
t2.customer city customer city, 
t2.customer state customer state, 
t2.shipping address shipping address 


t2.shipping zip code shipping zip code 


t2.shipping city shipping city 


t2.shipping state shipping state 


ti.version + 1 version, 

$(hivevar:pre date) effective date, 

$(hivevar:max date) expiry date 
rom 


ustomer dim t1 
ner join 


ds.customer t2 on 


1.customer number = t2.customer number 
and 


ti.expiry date = $(hivevar:pre date? 
left join 


customer dim t3 on 


t1.customer number = t3.customer number 
and 


t3.expiry date = $[hivevar:max date) 


where (!(ti.customer street address <=> 
t2.customer street address) 


or !(ti.shipping address <=> t2.shipping address) ) 


and 
t3.customer sk is null 
y tti i 
cross join 
(select coalesce(max 
(customer sk),0) sk max from 


customer dim) t2; 


上 面 的 语句 生成 SCD2 的 新 增 版 本 行 ， 增 加 了 送 贷 地 址 的 处 理 ， 注 
意 列 的 顺序 要 正确 。 


- - 处 理 customer_name 列 上 的 scd1 
drop table if exists 


tmp; 
create table 


tmp as 


select 


a.customer sk,a.customer number,b.customer name, 


e 


.Ccustomer street address,a.customer zip. code, 
.customer city,a.customer state, 
a.shipping address,a.shipping zip code 


e 


, 


a.shipping city,a.shipping state 
a.version,a.effective date,a.expiry date 
from 


customer dim a, rds.customer b 
where 


a.customer number - b.customer number 

and !(a.customer name «-» b.customer name) 
/ 
delete from 

customer dim where 


customer dim.customer sk in 


(select 


customer sk from 


tmp); 
insert into 


customer dim select * from 


tmp; 


customer_name 列 上 的 scd1 处 理 只 是 在 select 语 句 中 增加 了 送 货 地 址 
的 四 列 ， 并 出 于 同样 的 原因 使 用 了 “<=>” 关 系 操作 符 。 


-- 处 理 新 增 的 customer 记 录 
insert into 


customer dim 
select row number() 


over (order by 

t1.customer_number) + t2.sk max, 

ti.customer number,ti.customer name,ti1.customer street addres 
S, 
t1.customer_zip_code,t1.customer_city,t1.customer_state, 
t1.shipping_address, t1.shipping_zip_code 


t1.shipping_city,t1.shipping state 


1,${hivevar:pre_date}, ${hivevar :max_date} 
from 

(select 

t1.* from 


rds.customer t1 
left join 


customer dim t2 on 


ti.customer number = t2.customer number 
where 


t2.customer sk is null 
) ti 
cross join 
(select coalesce(max 
(customer sk),0) sk max from 


customer dim) t2; 


对 于 新 增 的 客户 ， 也 只 是 在 select 语 句 中 增加 了 送 货 地 址 的 4 列 ， 
其 他 没有 变化 。 


-- 装载 销售 订单 事实 表 


insert into 


sales order fact 
select 


order sk,customer sk,product sk,date sk,order amount,order q 
uantity 

from 

rds.sales order a,order dim b,customer dim c, 
product dim d,date dim e,rds.cdc time f 


where 


a.order number - b.order number 
and 


a.customer number = c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and 
a.entry date »- f.last load and 
a.entry date « f.current load ; 


对 于 委 载 销售 订单 事实 表 的 修改 很 简单 ， 只 要 将 新 增 的 销售 数量 
列 添加 到 查询 语句 中 即 可 。 修 改 完成 以 后 ， 保 存 regular_etl.sql 文 件 。 


定期 装载 脚本 的 其 他 部 分 无 须 修改 。 
4. 测试 


(1) 执行 下 面 的 SQL 脚本 ， 在 MySQL 的 源 数 据 库 中 增加 客户 和 
销售 订单 测试 数据 。 


USe 


source; 
update 


customer set 


shipping. address = customer street address, 
shipping zip code - customer zip code, 
shipping city - customer city, 

shipping state - customer state ; 

insert into 


customer 
(customer name, 
customer street address, 
customer zip. code, 
customer city, 
customer state, 
shipping. address, 
shipping. zip. code, 
shipping. city, 
shipping. state) 
values 


('online distributors', 
'2323 louise dr.', 


17055, 
'pittsburgh', 
'pa', 
'2323 louise dr.', 
17055, 
'pittsburgh', 
'pa') ; 


-- 新 增订 单 日 期 为 2016 年 7 月 12 日 的 9 条 订单 。 


Set 


Qstart date := unix timestamp('2016-07-12'); 
set 


Qend date :- unix timestamp('2016-07-13'); 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 

sales order where 

1-0; 
set 

Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 
(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 
(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


(117, 1, 1, Qorder date, Qorder date, Qamount, Qquantity); 


,，， 新 增 9 条 订单 ..， 
insert into 


sales order 


select null 


[4 

customer number, 
product code, 
order date, 
entry date, 
order amount, 
order quantity 
from 


temp sales order data 
order by 


order date; 
commit 


上 面 的 语句 生成 了 两 个 表 的 测试 数据 。 客 户 表 更 新 了 已 有 8 个 客户 
的 送 货 地 址 ， 并 新 增 编 号 为 9 的 客户 。 销 售 订单 表 新 增 了 9 条 记录 。 


(2) 执行 定期 装载 并 查看 结果 。 
使 用 下 面 的 命令 执行 定期 装载 。 


./regular etl.sh 


命令 成 功 执行 后 查询 dw.customer_dim 表 ， 应 该 看 到 已 存在 客户 的 

新 记录 有 了 送 货 地 址 ， 老 的 过 期 记录 的 送 货 地 址 为 空 。9 号 客户 是 新 加 

的 ， 具 有 送 货 地 址 。 查 询 dw.sales_order fact 表 ， 应 该 只 有 9 个 订单 有 销 
售 数 量 ， 老 的 销售 数据 数量 字段 为 空 


10.2 ”维度 子 集 


有 些 需 求 不 需要 最 细节 的 数据 。 例 如 更 想 要 某 个 月 的 销售 汇总 ， 
而 不 是 某 天 的 数据 。 再 比如 相对 于 全 部 的 销售 数据 ， 可 能 对 某 些 特定 


状态 的 数据 更 感 兴趣 等 。 此 时 事实 数据 需要 关联 到 特定 的 维度 ， 这 些 
特定 维度 包含 在 从 细节 维度 选择 的 行 中 ， 所 以 叫 维度 子 集 。 维 度 子 集 
比 细 节 维 度 的 数据 少 ， 因 此 更 易 使 用 ， 查 询 也 更 快 。 


有 时 称 细节 维度 为 基本 维度 ， 维 度 子 集 为 子 维 度 ， 基 本 维度 表 与 
子 维度 表 具 有 相同 的 属性 或 内 容 ， 我 们 称 这 样 的 维度 表 具 有 一 致 性 。 
一 致 的 维度 具有 一 致 的 维度 关键 字 、 一 致 的 属性 列 名 字 、 一 致 的 属性 
定义 以 及 一 致 的 属性 值 。 如 果 属 性 的 含义 不 同 或 者 包含 不 同 的 值 ， 维 
度 表 就 不 是 一 致 的 。 


子 维度 是 一 种 一 致 性 维度 ， 由 基本 维度 的 列 与 行 的 子 集 构成 。 当 
构建 聚合 事实 表 ， 或 者 需要 获取 粒度 级 别 较 高 的 数据 时 ， 需 要 用 到 子 
维度 。 例 如 ， 有 一 个 进 销 存 业 务 系统 ， 和 零售 过 程 获取 原子 产品 级 别 的 
效 据 ， 而 预测 过 程 需 要 建立 品牌 级 别 的 效 据 。 无 法 跨 两 个 业务 过 程 模 
式 ， 共 享 单一 产品 维度 表 ， 因 为 它们 需要 的 粒度 是 不 同 的 。 如 果品 牌 
表 属 性 是 产品 表 属 性 的 严格 的 子 集 ， 则 产品 和 品牌 维度 仍然 是 一 致 
的 。 在 这 个 例子 中 需要 建立 品牌 维度 表 ， 它 是 产品 维度 表 的 子 集 。 对 
基本 维度 和 子 维度 表 来 说 ， 属 性 (例如 ， 品 牌 和 分 类 描述 ) 是 公共 
的 ， 其 标识 和 定义 相同 ， 两 个 表 中 的 值 相同 ， 然 而 ， 基 本 维度 和 子 维 
度 表 的 主键 是 不 同 的 。 注 意 : 如 果子 维度 的 属性 是 基本 维度 属性 的 真 
子 集 ， 则 子 维度 与 基本 维度 保持 一 致 。 

还 有 另外 一 种 情况 ， 就 是 当 两 个 维度 具有 同样 粒度 级 别 的 细节 数 
据 ， 但 其 中 一 个 仅 表 示 行 的 部 分 子 集 时 ， 也 需要 一 致 性 维度 子 集 。 例 
如 ， 某 公司 产品 维度 包含 跨 多 个 不 同业 务 的 所 有 产品 组 合 ， 如 服装 
类 、 电 器 类 等 。 对 不 同业 务 的 分 析 可 能 需要 浏览 企业 级 维度 的 子 集 ， 
需要 分 析 的 维度 仪 包含 部 分 产品 行 。 与 该 子 维度 连接 的 事实 表 必 须 被 
限制 在 同样 的 产品 子 集 。 如 果 用 户 试 图 使 用 子 集 维度 ， 访 问 包含 所 有 
产品 的 集合 ， 则 因为 违反 了 参照 完整 性 ， 他 们 可 能 会 得 到 预料 之 外 的 


查询 结果 。 需 要 认识 到 这 种 造成 用 户 混 靖 或 错误 的 维度 行 子 集 的 情 
况 。 

ETL 数 据 流 应 当 根 据 基本 维度 建立 一 致 性 子 维度 ， 而 不 是 独立 于 
基本 维度 ， 以 确保 一 致 性 。 本 节 中 将 准备 两 个 特定 子 维度 ， 月 份 维度 
与 Pennsylvania 州 客户 维度 。 它 们 均 取 自 现 有 的 维度 ， 月 份 维度 是 日 期 
维度 的 子 集 ，Pennsylvania 州 客户 维度 是 客户 维度 的 子 集 。 


1. 建立 包含 属性 子 集 的 子 维度 


当 事 实 表 获取 比 基 本 维度 更 高 粒度 级 别 的 度量 时 ， 需 要 上 卷 到 子 
维度 。 在 销售 订单 示例 中 ， 当 除了 需要 日 销售 数据 外 ， 还 需要 月 销售 
数据 时 ， 会 出 现 这 样 的 需求 。 我 们 修改 日 期 数据 装载 脚本 ， 创 建 月 份 
维度 表 并 向 其 装载 数据 。 


为 了 从 日 期 维度 同步 导入 月 份 维度 ， 要 把 月 份 装载 欢 入 到 日 期 维 
度 的 预 装载 脚本 中 。 因 此 需要 修改 6.6 节 里 生成 日 期 维度 数据 的 
date_dim_generate.sh 文 件 。 下 面 是 修改 后 的 date_dim_generate.sh 文 件 内 
A 《省略 了 没有 修改 的 部 分 ) o 


#!/bin/bash 
beeline -u jdbc:hive2://cdh2:10000/dw -f 
create table date dim.sql 


date1="$1" 

UEM ENS 

while [ $min -le $max ] 
do 

. .. 生成 日 期 文件 ... 


done 


hdfs dfs -put -f date dim.csv 
/user/hive/warehouse/dw.db/date dim tmp/ 


beeline -u jdbc:hive2://cdh2:10000/dw -f append_date.sql 


在 装载 日 期 维度 数据 的 脚本 中 ， 先 调用 了 一 个 名 为 
create table date dim.sqlB HiveQL 文件 ， 这 是 一 个 新 建 的 脚本 文件 。 
然后 用 shell 生 成 日 期 文本 文件 ， 这 部 分 没有 变化 。 生 成 的 日 期 文件 被 
上 传 到 HDFS 的 date_dim_tmp 目 录 ， 而 不 是 原来 的 date_dim 目 录 。 最 后 
调用 名 为 append_date.sql 的 HiveQL 文 件 追 加 日 期 数据 。append_date.sql 
是 另 一 个 新 创建 的 脚本 文件 。 


create_table_date_dim.sql 文 件 内 容 如 下 : 


USe 


dw; 


-- 日 期 维度 临时 表 


create table if not exists 


date dim tmp ( 
date sk int comment 


'surrogate key', 
date date comment 


‘date, yyyy-mm-dd', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'date dimension table' 
row format 


delimited fields terminated by 
',' Stored as 


textfile; 


-- 建立 日 期 维度 表 
create table if not exists 


date dim ( 
date sk int comment 


'surrogate key', 
date date comment 


‘date, yyyy-mm-dd', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'date dimension table' 
clustered by 


(date sk) into 8 buckets stored as 


orc tblproperties ('transactional'-'true'); 


-- 建立 月 份 维度 表 


create table if not exists 


month dim ( 
month sk int comment 


'surrogate key', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) comment 


'month dimension table' 
clustered by 


(month sk) into 8 buckets stored as 


orc tblproperties ('transactional'-'true') ; 


以 上 的 HiveQL 语 句 建立 了 三 个 表 ，date_dim_tmp 是 存储 日 期 维度 
数据 的 临时 表 ， 使 用 默认 的 文本 文件 格式 ，shell 脚 本 生成 的 日 期 文件 
会 先 装载 到 这 个 表 中 。 这 个 临时 表 的 结构 与 日 期 维度 表 完 全 相同 。 
date_dim 和 month_dim 分 别 是 日 期 维度 表 和 月 份 维度 表 。 可 以 看 到 ， 月 
份 维度 表 除 了 代理 键 列 ， 其 他 属性 都 包含 在 日 期 维度 表 中 。 子 维度 的 
主键 必须 独立 构建 ， 不 能 依赖 于 基本 维度 的 主键 。 日 期 和 月 份 维度 表 
都 使 用 ORC 文 件 格式 ， 这 是 为 了 支持 以 后 可 能 出 现 的 数据 更 新 需求 。 


create_table_date_dim.sql 文 件 会 在 shell 脚 本 中 的 第 一 个 beeline 命 令 
中 引用 。shell 脚 本 可 能 会 多 次 执行 (比如 追加 日 期 数据 ) 。 因 此 我 们 
在 建 表 语 句 中 使 用 了 if not exists 子 句 ， 目 的 是 在 首次 执行 shell 脚 本 时 
创建 表 。 如 果 以 后 再 次 执行 sheal， 虽 然 依 然 会 调用 
create_table_date_dim.sql 文 件 ， 但 因为 表 已 经 存在 ， 这 些 建 表 语句 会 被 
忽略 而 不 报 任 何 错误 ， 使 得 后 面 的 shell 命 令 继续 执行 。 


新 增 的 append_date.sql 文 件 内 容 如 下 : 


USe 


dw; 


-- 向 日 期 维度 表 追 加 数据 


insert into 


date dim 
select row number() 


over (order by date) 
+ t2.sk max, 
ti.date 


t1.month 


t1.month name, 
ti.quarter, 
ti.year 

from 

(select date, month 


,month_name, quarter, year from 


date dim tmp) t1 
cross join 


(select coalesce(max 
(date sk),0) sk max from 


date dim) t2; 
-- 向 月 份 维度 表 追 加 数据 


insert into 


month dim 
select row number() 


over (order by 
t1.year 

, t1.month 

) + t2.sk max, 


t1.month 


ti.month name, 
ti.quarter, 
ti.year 


from 
(select distinct month 


, month_name, quarter, year from 


date dim tmp) t1 cross join 


(select coalesce(max 
(month sk),0) sk max from 


month dim) t2; 


上 面 的 语句 从 date_dim_tmp 表 查询 数据 ， 并 追加 到 日 期 维度 表 和 
月 份 维度 表 。 使 用 row_number0 函 数 生 成 维度 表 的 代理 键 。 月 份 维度 
数据 是 用 distinct 关 键 字 对 date_dim_tmp 表 的 数据 去 重 得 到 的 。 


了 解 了 所 有 这 些 代码 以 后 ， 就 可 以 总 结 出 生成 日 期 维度 和 月 份 维 
度数 据 的 整个 流程 。 只 需要 执行 date_dim_generate.sh 脚 本 文件 就 可 以 
生成 维度 表 数 据 ， 这 种 设计 将 暴露 给 外 部 的 接口 尽量 简单 化 ， 而 将 复 
杂 的 逻辑 封装 在 脚本 内 部 。 每 次 执行 时 ， 如 果 相 关 表 不 存在 则 首先 创 
建 表 ， 然 后 生成 一 个 日 期 文本 文件 date_dim.csv， 并 将 此 文件 内 容 装 载 
到 临时 表 date_dim tmp 中。 最 后 在 append_date.sql 文 件 中 处 理 从 临时 表 
到 日 期 维度 和 月 份 维度 的 数据 装载 。 


之 所 以 要 用 一 个 临时 表 过 渡 ， 有 两 点 原因 : 一 是 考虑 到 后 续 可 能 
需要 追加 日 期 ， 而 不 是 重新 生成 所 有 日 期 维度 数据 。 二 是 现在 的 
date_dim 和 month_dim 表 是 ORC 格 式 的 二 进 制 文 件 ， 不 能 直接 从 文本 文 
件 LOAD 数 据 ， 只 能 从 一 个 普通 文本 文件 格式 的 表 插 入 数据 。 


无 论 何 时 ， 使 用 修改 后 的 date_dim_generate.sh 脚 本 增加 日 期 记录 
时 ， 如 果 这 个 日 期 所 在 的 月 份 没 在 月 份 维度 中 ， 那 么 该 月 份 就 会 被 装 
到 月 份 维度 中 。 下 面 测试 一 下 日 期 和 月 份 维度 表 数 据 的 预 装载 。 


(1) 删除 date_dim_tmp、date_dim、month_dim 表 : 


USe 


dw; 
drop table if exists 


date dim tmp; 
drop table if exists 


date dim; 
drop table if exists 


month dim; 


(2) 执行 预 装载 脚本 ， 生 成 从 2000 年 1 月 1 日 到 2010 年 12 月 31 日 的 
日 期 数据 : 


./date dim generate.sh 2000-01-01 2010-12-31 


首次 执行 相关 表 都 会 新 建 ， 并 生成 4018 行 日 期 维度 表 数据 ，132 行 
月 份 维度 表 数 据 。 


(3) 再 次 执行 预 装 载 ， 追 加 从 2011 年 1 月 1 日 到 2020 年 12 月 31 日 的 
日 期 数据 : 


./date dim generate.sh 2011-01-01 2020-12-31 


这 次 执行 是 向 已 有 的 维度 表 中 追加 日 期 ， 执 行 成 功 后 ， 日 期 维度 
表 共 有 7671 行 记录 ， 从 2000 年 1 月 1 日 到 2020 年 12 月 31 日 ， 月 份 维度 表 
共有 252 条 记录 ， 从 2000 年 1 月 到 2020 年 12 月 。 


一 致 性 日 期 和 月 份 维度 是 用 于 展示 行 和 列 维度 子 集 的 独特 实例 。 
显然 ， 无 法 简单 地 使 用 同样 的 日 期 维度 访问 日 或 月 事实 表 ， 因 为 它们 
的 粒度 不 同 。 月 维度 中 要 排除 所 有 不 能 应 用 月 粒度 的 列 。 例 如 ， 假 设 
日 期 维度 有 一 个 促销 期 标志 列 ， 用 于 标识 该 日 期 是 否 属于 某 个 促销 期 
之 中 。 该 列 不 适用 月 层次 上 ， 因 为 一 个 月 中 可 能 有 多 个 促销 期 ， 而 且 
并 不 是 一 个 月 中 的 每 一 天 都 是 促销 期 。 促 销 标记 适用 于 天 这 个 层次 。 


2. 建立 包含 行 子 集 的 子 维度 


当 两 个 维度 处 于 同一 细节 粒度 ， 但 是 其 中 一 个 仅仅 是 行 的 子 集 
时 ， 会 产生 另外 一 种 一 致 性 维度 构造 子 集 。 例 如 ， 销 售 订 单 示例 中 ， 
客户 维度 表 包 含 多 个 州 的 客户 信息 。 对 于 不 同 州 的 销售 分 析 可 能 需 
浏览 客户 维度 的 子 集 ， 需 要 分 析 的 维度 仅 包含 部 分 客户 数据 。 通 过 使 
用 行 的 子 集 ， 不 会 破坏 整个 客户 集合 。 当 然 ， 与 该 子 集 连 接 的 事实 表 
必须 被 限制 在 同样 的 客户 子 集中 。 

月 份 维度 是 一 个 上 卷 维 度 ， 包 含 基 本 维度 的 上 层 数据 。 而 特定 维 
度 子 集 是 选择 基本 维度 的 行 子 集 。 执 行 下 面 的 脚本 建立 特定 维度 表 ， 
并 导入 Pennsylvania (PA) 客 户 维度 子 集 数 据 。 


USe 


dw; 
create table 


pa customer dim ( 
customer sk int comment 


'surrogate key', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 
customer zip code int comment 


'zipcode', 
customer city varchar 


(30) comment 


SOWIE. 
customer state varchar 


(2) comment 


'state', 
shipping. address varchar 


(50) comment 


' shipping address', 
shipping zip code int comment 


'shipping zip code', 
shipping city varchar 


(30) comment 


'shipping. city', 
shipping state varchar 


(2) comment 


'shipping state', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 

) 

clustered by 
(customer sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


注意 ，PA 客 户 维度 子 集 与 月 份 维度 子 集 有 两 点 区 别 : 


e pa customer dim 表 和 customer. dim 表 有 完全 相同 的 列 ， 而 
month_dim 不 包含 date_dim 表 的 日 期 列 。 

e pa customer dim 表 的 代理 键 就 是 客户 维度 的 代理 键 ， 而 
month_dim 表 里 的 月 份 维度 代理 键 并 不 来 自 日 期 维度 ， 而 是 独 
立 生 成 的 。 


通常 在 基本 维度 表 装 载 数据 后 ， 进 行 包含 其 行 子 集 的 子 维度 表 的 
数据 装载 。 Me 记载 regular_etl. bees 增加 对 PA 客 户 维度 
的 处 理 ， 这 里 只 是 在 装载 完 customer_dim 后 简单 重 载 PA 客 户 维 度数 
据 ， ee (只 列 出 增加 的 部 分 ) : 


- 设置 变量 以 支持 事务 
" 设置 scd 的 生效 时 间 和 过 期 时 间 
K 设置 cdc 的 上 限时 间 
装载 customer 维 度 

| - 。 重 载 pa 客户 维 度 


truncate table 


pa customer dim; 
insert into 


pa customer dim 
select 


customer sk,customer number,customer name, 

customer street address,customer zip code,customer city, 
customer state,shipping address,shipping zip code,shipping ci 
ty, 

shipping. state,version,effective date,expiry date 
from 


customer dim 
where 


customer state - 'pa' ; 


-- 装载 product 维 度 
- - 装载 order 维 度 
- - 装载 销售 订单 事实 表 


- - 更 新 时 间 惟 表 的 last_1oad 字 段 


上 面 的 语句 在 处 理 完 客户 维度 表 后 ， 装 载 PA 客 户 维度 。 每 次 重新 
盖 pa_customer_dim 表 中 的 所 有 数据 。 先 用 truncate table 语 句 清 空 
表 ， 然 后 用 insert into ... select 语 句 ， 从 客户 维度 表 中 选取 Pennsylvania 
州 的 数据 ， 并 插入 到 pa_customer_dim 表 中 。 之 所 以 没有 使 用 insert 
overwrite table 这 种 一 句 话 的 解决 方案 ， 是 因为 在 某 些 版 本 的 Hive 中 , 
对 ORC 表 使 用 overwrite 会 出 错 。 为 了 保持 良好 的 兼容 性 ， 使 用 了 比较 
成 熟 的 truncate 语 句 。 


保存 修改 后 的 regular_etl.sql 文 件 ， 使 用 以 下 步骤 测试 PA 客 户 子 维 
度 的 数据 装载 : 

(1) 执行 下 面 的 SQL 脚 本 往 客 户 源 数据 里 添加 一 个 PA 州 的 客户 
和 4 个 OH 州 (RABIN) 的 客户 。 


USe 


source; 
insert into 


customer 


(customer name, customer street address, customer zip. code, 


customer city, customer state, shipping address, 
shipping zip code, shipping city, shipping state) 
values 


('pa customer', '1111 louise dr.', '17050', 
'mechanicsburg', 'pa', '1111 louise dr.', 
'17050', 'mechanicsburg', 'pa'), 

('bigger customers', '7777 ridge rd.', '44102', 
'cleveland', 'oh', '7777 ridge rd.', 

'44102', 'cleveland', 'oh'), 

('smaller stores', '8888 jennings fwy.', '44102', 
'cleveland', 'oh', '8888 jennings fwy.', 

'44102', 'cleveland', 'oh'), 


('small-medium retailers', '9999 memphis ave.', '44102', 


'cleveland', 'oh', '9999 memphis ave.', 
'44102', 'cleveland', 'oh'), 

('oh customer', '6666 ridge rd.', '44102', 
'cleveland', 'oh', '6666 ridge rd.', 
'44102', 'cleveland', 'oh') ; 

commit 


以 上 代码 在 一 条 insert into ... values 语 句 中 插入 多 条 数据 ， 
法 是 MySQL 对 标准 SQL 语法 的 扩展 。 


(2) 使 用 下 面 的 命令 执行 定期 装载 。 


./regular etl.sh 


(3) 使 用 下 面 的 查询 验证 结果 。 


select 


种 语 


customer name, customer state, effective date, expiry date 
from 


dw.pa customer dim; 


3。 使 用 视图 实现 维度 子 集 


为 了 实现 维度 子 集 ， 我 们 创建 了 新 的 子 维度 表 ， 修 改 了 日 期 数据 
预 装 载 和 ETL 定 期 装载 脚本 ， 并 进行 了 测试 。 除 了 需要 较 大 的 工作 
量 ， 这 种 实现 方式 还 有 两 个 主要 问题 ， 一 是 需要 额外 的 存储 空间 ， 因 
为 新 创建 的 子 维度 是 物理 表 ; 二 是 存在 数据 不 一 致 的 潜在 风险 。 本 质 

， 只 要 相同 的 数据 存储 多 份 ， 就 会 有 数据 不 一 致 的 可 能 。 这 也 就 是 
为 什么 在 数据 库 设 计时 要 强调 规范 化 以 最 小 化 数据 元 余 的 原因 之 一 。 
为 了 解决 这 些 问题 ， 还 有 一 种 常用 的 做 法 是 在 基本 维度 上 建立 视图 生 
成 子 维度 。 下 面 是 创建 子 维度 视图 的 HiveQL 语 句 。 


-- 建立 月 份 维度 视图 


create view 


month dim as 


select row number() 
over (order by 
ti.year 

, t1.month 


) month sk, t1.* 
from 


(select distinct month 


, month name, quarter, year 


from 


date dim) t1; 


-- 建立 PA 维度 视图 
create view 


pa_customer_dim as 
select * 


from 


customer dim 
where 


customer state - 'pa'; 


这 种 方法 的 主要 优点 是 : 实现 简单 ， 只 要 创建 视图 ， 不 需要 修改 
原来 脚本 中 的 逻辑 ; 不 占用 存储 空间 ， 因 为 视图 不 真正 存储 效 据 ; 消 
除了 数据 不 一 致 的 可 能 ， 因 为 数据 只 有 一 份 。 虽 然 优 点 很 多 ， 但 此 方 
法 的 缺点 也 十 分 明显 : 当 基 本 维度 表 和 子 维度 表 的 数据 量 相差 悬殊 
时 ， 性 能 会 比 物理 表 差 得 多 ;如果 定义 视图 的 查询 很 复杂 ， 并 且 视 图 
很 多 的 话 ， 可 能 会 对 元 数据 存储 系统 造成 压力 ， 严 重 影响 查询 性 能 。 
下 面 我 们 看 一 下 Hive 对 视图 的 支持 。 


Hive 从 0.6 版 本 开始 支持 视图 功能 。 视 图 具有 唯一 的 名 字 ， 如 果 所 
在 数据 库 中 已 经 存在 同名 的 表 或 视图 ， 创 建 语句 会 抛 出 错误 信息 ， 可 
以 使 用 CREATE ..IF NOT EXISTS 语 句 跳 过 错误 。 如 果 在 视图 定义 中 
不 显 式 写 列 名 ， 视 图 列 的 名 字 自 动 从 select 表 达 式 衍生 出 来 。 如 果 
select 包 含 没 有 别名 的 标量 表达 式 ， 例 如 x+y， 视 图 的 列 名 将 会 是 _c0、 
_cl 等 。 重 命名 视图 的 列 名 时 ， 可 以 给 列 增加 注释 。 注 释 不 会 自动 从 底 
层 表 的 列 继承 。 

注意 视图 是 与 存储 无 关 的 纯粹 的 逻辑 对 象 ， 当 前 的 Hive 不 支持 物 
化 视图 。 当 查询 引用 了 一 个 视图 ， 视 图 的 定义 被 评估 后 产生 一 个 行 
集 ， 用 作 查 询 后 续 的 处 理 。 这 只 是 一 个 概念 性 的 描述 ， 实 际 上 ， 作 为 


查询 优化 的 一 部 分 ，Hive 可 能 把 视图 的 定义 和 查询 结合 起 来 考虑 ， 而 
不 一 定 是 先生 成 视图 所 定义 的 行 集 。 例 如 ， 优 化 器 可 能 将 查询 的 过 滤 
条 件 下 推 到 视图 中 。 


一 旦 视图 建立 ， 它 的 结构 就 是 固定 的 ， 之 后 底层 表 的 结构 改变 ， 
如 添加 字段 等 ， 不 会 反映 到 视图 的 结构 中 。 如 果 底 层 表 被 删除 了 ， 或 
者 表 结构 改变 成 一 种 与 视图 定义 不 兼容 的 形式 ， 视 图 将 变 为 无 效 状 
态 ， 其 上 的 查询 将 失败 。 


视图 是 只 读 的 ， 不 能 对 视图 使 用 LOAD 或 INSERT 语 句 装载 数据 ， 
但 可 以 使 用 alter view 语 句 修改 视图 的 某 些 元 数据 。 视 图 定义 中 可 以 包 
Sorder by 和 limit 子 句 ， 例 如 ， 如 果 一 个 视图 定义 中 指定 了 limit 5， 而 
查询 语句 为 select * from v limit 10， 那 么 至 多 会 返回 5 行 记录 。 使 用 
SHOW CREATE TABLE 语 句 会 显示 创建 视图 的 CREATE VIEW 语句 。 
在 Hive 2.2.0 中 ， 可 以 使 用 SHOW VIEWS 语 句 显示 一 个 数据 库 中 的 视 
图 列表 。 


103 ”角色 扮演 维度 


单个 物理 维度 可 以 被 事实 表 多 次 引用 ， 每 个 引用 连接 逻辑 上 存在 
差异 的 角色 维度 。 例 如 ， 事 实 表 可 以 有 多 个 日 期 ， 每 个 日 期 通过 外 键 
引用 不 同 的 日 期 维度 ， 原 则 上 每 个 外 键 表示 不 同 的 日 期 维度 视图 ， 这 
样 引 用 具有 不 同 的 含义 。 这 些 不 同 的 维度 视图 具有 唯一 的 代理 键 列 
名 ， 被 称 为 角色 ， 相 天 维度 被 称 为 角色 扮演 维度 。 

当 一 个 事实 表 多 次 引用 一 个 维度 表 时 会 用 到 角色 扮演 维度 。 例 
如 ， 一 个 销售 订单 有 一 个 是 订单 日 期 ， 还 有 一 个 请 求 交 付 日 期 ， 这 时 
就 需要 引用 日 期 维度 表 两 次 。 

我 们 期 望 在 每 个 事实 表 中 设置 日 期 维度 ， 因 为 总 是 希望 按照 时 间 
来 分 析 业 务 情况 。 在 事务 型 事实 表 中 ， 主 要 的 日 期 列 是 事务 日 期 ， 例 


如 ， 订 单 日 期 。 有 时 会 发 现 其 他 日 期 也 可 能 与 每 个 事实 关联 ， 例 如 ， 
订单 事务 的 请 求 交付 日 期 。 每 个 日 期 应 该 成 为 事实 表 的 外 键 。 


本 闻 将 说 明 两 类 角色 扮演 维度 的 实现 ， 分 别 是 表 别 名 和 数据 库 视 
图 。 这 两 种 实现 都 使 用 了 Hive 支 持 的 功能 。 表 别名 是 在 SQL 语句 里 引 
用 维度 表 多 次 ， 每 次 引用 都 赋予 维度 表 一 个 别名 。 而 数据 库 视 图 ， 则 
是 按照 事实 表 需 要 引用 维度 表 的 次 数 ， 建 立 相同 数量 的 视图 。 我 们 先 
修改 销售 订单 数据 库 模 式 ， 添 加 一 个 请 求 交 付 日 期 字段 ， 并 对 数据 抽 
取 和 装载 脚本 做 相应 的 修改 。 这 些 表 结 构 修改 好 后 ， 插 入 测试 数据 ， 
演示 别名 和 视图 在 角色 扮演 维度 中 的 用 法 。 


1. 修改 数据 库 模 式 


使 用 下 面 的 脚本 修改 数据 库 模 式 。 分 别 给 数据 仓库 里 的 事实 表 
sales order fact 和 jm 库 中 销售 订单 表 sales order 增加 
request_delivery_date_sk 和 request_delivery_date 字 段 。 


- in hive 
use 


dw; 


- sales_order_fact 表 是 orc 格 式 ， 增 加 列 需要 重建 数据 
alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact ( 
order sk int comment 


'order SK', 
customer sk int comment 


'customer SK', 
product sk int comment 


'product SK', 
order date sk int comment 


'date SK', 
request delivery date sk int comment 
date SK' 
order amount decimal 


(10 , 2 ) comment 


'order amount', 
order quantity int comment 


'order quantity' 
) 
clustered by 
(order sk) into 


8 buckets 
stored as 


'request delivery 


orc tblproperties ('transactional'-'true'); 


insert into 


sales order fact 
select 


order sk, customer sk, product sk, order date sk, 


null 


, order amount, order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 


-- 修改 过 渡 区 的 sales_order 表 
use 


rds; 
alter table 


sales order add 
columns (request delivery date date comment 


'request delivery 
date') ; 
-- in mysql 
use 


source; 
alter table 


sales order add 
request delivery date date after 


order date ; 


增加 列 的 过 程 已 经 在 本 章 开 头 详细 讨论 过 。DW 库 的 销售 订单 事 
实 表 是 ORC 格 式 ， 因 此 增加 列 时 需要 重建 表 ， 并 加 载 已 有 数据 。 在 这 
个 表 上 增加 请 求 交 付 日 期 代理 键 字 段 ， 数 据 类 型 是 整 型 。 已 有 记录 在 
该 新 增 字 段 上 的 值 为 空 。 过 渡 区 的 销售 订单 表 是 默认 的 文本 格式 ， 因 
此 可 以 直接 用 alter table 命 令 增加 请 求 交付 日 期 字段 。 与 订单 日 期 不 同 
的 是 ， 该 列 的 数据 类 型 是 date， 我 们 不 考虑 请 求 交 付 日 期 中 包含 时 间 
的 情况 。 因 为 不 支持 after 语 法 ， 新 增 的 字段 会 加 到 所 有 已 存在 字段 的 
后 面 。 最 后 给 源 数据 库 的 销售 订单 事务 表 增 加 请 求 交 付 日 期 询 ， 同 样 
是 date 类 型 。 修 改 后 DW 数据 库 模 式 如 图 10-2 所 示 。 


product | dim | customer dim 
| pr oduct sk <pi> as customer sk £pi» «M» 
product code customer number 
| product name customer name 
| product category > _street_address 
| version Cr] customer zip code 
| effective date apt i 
| expiry_date 


customer_state 
shipping_address 
shipping_zip_code 


h > 
shipping_state 


Lee] sales_order_fact Bao effective data 
order_sk <fi3> expiry_date 
customer_sk <fi2> 
product_ sk <fil> 
order_date_sk <fid 

— = r 3— ——3] 

request delivery date skfi 
order dim o date dim 
order sk £pi» <M) date sk <pi> XM» 
order number date 
| version . | month 
| effective_date ”| month_name 
| expiry_date quarter 
year 


图 10-2 ”数据 仓库 中 增加 请 求 交 付 日 期 属性 


从 图 中 可 以 看 到 ， 销 售 订单 事实 表 和 日 期 维度 表 之 间 有 两 条 连 
线 ， 表 示 订 单 日 期 和 请 求 交付 日 期 都 是 引用 日 期 维度 表 的 外 键 。 注 
意 ， 虽 然 图 中 显示 了 表 之 间 的 关联 关系 ， 但 Hive 中 并 没有 主 外 键 数据 
库 约 束 。 


2。 重建 Sqoop 作 业 


使 用 下 面 的 脚本 重建 Sgoop 人 作业， 增加 request_delivery_date 列 的 数 
据 抽 取 。 


last_value= sqoop job --show myjob incremental import --meta- 
connect 

jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep 
incremental.last.value | awk '{print $3} 

sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 
--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order_number, customer_number, product_code, 
order_date, entry_date, order_amount, 

order_quantity, request_delivery_date 


n N 

--hive-import 和 

--hive-table rds.sales order \ 
--incremental append \ 
--check-column order number \ 
--last-value $1ast value 


注意 columns 参 数值 中 列 的 顺序 ， 即 MySQL 中 source.sales_order 表 
列 的 选取 顺序 ， 要 和 rds.sales_order 表 中 列 定 义 的 顺序 保持 一 致 。 


3。 修 改定 期 装载 regular_etl.sql 文 件 


定期 装载 HiveQL 脚 本 需要 增加 对 请 求 交 付 日 期 列 的 处 理 ， 修 改 后 
的 脚本 如 下 所 示 (只 显示 修改 的 部 分 ) o 


- - 设置 变量 以 支持 事务 ... 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 .. ， 
-- 设置 cdc 的 上 限时 间 ... 

- - 装载 customer 维 度 ... 

-- 重 载 pa 客户 维度 ... 

-- 装载 product 维 度 ... 

-- 装载 order 维 度 ... 

- - 装载 销售 订单 事实 表 ... 


insert into 


sales order fact 
select 


order sk,customer sk,product sk,e.date sk, 
f.date sk 


,Order amount,order quantity 
from 


rds.sales order a, 
order dim b, 
customer dim c, 
product dim d, 
date dim e, 
date dim f 


[4 
rds.cdc time g 
where 


a.order number - b.order number 
and 


a.customer number = c.customer number 
and 


a.order date »- c.effective date 


and 


a.order date < c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and to date(a.request delivery date) - f.date 


and 

a.entry date »- g.last load 
and 

a.entry date « g.current load ; 


-- 更 新 时 间 惟 表 的 last_1oad 字 段 ..， 


如 代码 中 的 加 粗 部 分 所 示 ， 在 装载 销售 订单 事实 表 时 ， 天 联 了 日 
期 维度 表 两 次 ， 分 别 赋予 别名 e 和 f。 事 实 表 和 两 个 日 期 维度 表 关 联 ， 
取得 日 期 代理 键 。e.date_sk 表 示 订 单 日 期 代理 键 ，f.date_sk 表 示 请 求 交 
付 日 期 的 代理 键 。 


4. 测试 


(1) 执行 下 面 的 SQL 脚 本 在 源 库 中 增加 三 个 带 有 交 货 日 期 的 销售 
订单 。 


USe 


source; 


/*** 新 增订 单 日 期 为 2016 年 7 月 17 日 的 3 条 订单 。***/ 
set 


Qstart date := unix timestamp('2016-07-17'); 
set 


Qend date := unix timestamp('2016-07-18'); 
set 


Qrequest delivery date :- '2016-07-20'; 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 

sales order where 

1-0; 
set 

Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 
(1000 + rand() 


* 9900); 
set 


Qquantity :- floor 
(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


(126, 1, 1, Qorder date, 
Qrequest delivery date, Qorder date, Qamount, Qquantity); 


... FASHRITRICR ... 
insert into 


sales_order 
select null 


,customer_number, product_code, order_date, 
request_delivery_date, entry_date, order_amount, order_quantity 
from 


temp_sales_order_data order by 


order_date; 
commit 


以 上 代码 在 源 库 中 新 增 了 三 条 销售 订单 记录 ， 订 单 日 期 为 2016 年 7 
月 17 日 ， 请 求 交 付 日 期 为 2016 年 7 月 20 日 。 


(2) 修改 rds.cdc_time 的 值 。 


insert 
overwrite table 


rds.cdc time 
select 


'2016-07-17', '2016-07-17' from 
rds.cdc time; 

为 了 测试 定期 装载 脚本 ， 需 要 把 最 后 执行 日 期 设置 为 2016 年 7 月 17 
日 ， 再 执行 定期 装载 时 会 处 理 新 插入 的 三 条 记录 。 

(3) 执行 定期 装载 并 查看 结果 。 

使 用 下 面 的 命令 执行 定期 装载 。 


./regular etl.sh 


使 用 下 面 的 查询 验证 结果 。 


USe 


dw; 
select 


a.order sk, request delivery date sk, c.date 


from 


sales order fact a, date dim b, date dim c 
where 


a.order date sk - b.date sk 
and 


a.request delivery date sk - c.date sk ; 


s — 
查询 结果 如 下 所 示 。 
+------------ 4-------------------------- 4------------ | 
| a.order sk | request delivery date sk | c.date | 
+------------ +-------------------------- +------------ | 
| 126 | 6046 | 2016-07-20 | 
(ETZ | 6046 | 2016-07-20 | 
| 128 | 6046 | 2016-07-20 | 
4------------ +-------------------------- +------------ | 


3 rows selected (45.003 seconds) 
可 以 看 到 只 有 三 个 新 的 销售 订单 具有 request_delivery_date_sk 值 ， 
6046 对 应 的 日 期 是 2016 年 7 月 20 日 。 
(4) 使 用 角色 扮演 维度 查询 。 


-- 使 用 表 别 名 查询 


USe 


dw; 


Select 
order date dim.date 


order date, 
request delivery date dim.date 


request delivery date, 
sum 


(order amount), count(*) 


from 
sales order fact a, 
date dim order date dim, 
date dim request delivery date dim 
where 


a.order date sk - order date dim.date sk 
and 


a.request delivery date sk - 
request delivery date dim.date sk 
group by 

order date dim.date 


, request delivery date dim.date 


cluster by 
order date dim.date 
, request delivery date dim.date 


-- 使 用 视图 查询 
use 


dw; 


-- 创建 订单 日 期 视图 


create view 


order date dim 
(order date sk, 
order date, 
month 


[4 

month name, 
quarter, 
year 


as select * from 


date dim; 
-- 创建 请 求 交 付 日 期 视图 


create view 


request delivery date dim 
(request delivery date sk, 
request delivery date, 
month 


[4 

month name, 
quarter, 
year 


as select * from 


date dim; 


== 查询 
select 


order date,request delivery date,sum 


(order amount), count(*) 


from 


sales order fact a,order date dim 
b,request delivery date dim c 
where 


a.order date sk - b.order date sk 
and 


a.request delivery date sk = c.request delivery date sk 
group by 


order date , request delivery date 
cluster by 


order date , request delivery date; 


上 面 两 个 查询 是 等 价 的 。 尽 管 不 能 连接 到 单一 的 日 期 维度 表 ， 但 
可 以 建立 并 管理 单独 的 物理 日 期 维度 表 ， 然 后 使 用 视图 或 别名 建立 两 
个 不 同日 期 维度 的 描述 。 注 意 在 每 个 视图 或 别名 列 中 需要 唯一 的 标 
识 。 例 如 ， 订 单 日 期 属性 应 该 具有 唯一 标识 order_date 以 便 与 请 求 交 付 
日 期 request_delivery_date 区 别 。 此 外 ，HiveQL 支 持 使 用 别名 ， 别 名 与 
视图 在 查询 中 的 作用 并 没有 本 质 的 区 别 ， 都 是 为 了 从 远 辑 上 区 分 同一 
个 物理 维度 表 。 许 多 BI 工 具 也 支持 在 语义 层 使 用 别名 。 但 是 ， 如 果 有 
多 个 BI 工 具 ， 连 同 直接 基于 SQL 的 访问 ， 都 同时 在 组 织 中 使 用 的 话 ， 
不 建议 采用 语义 层 别名 的 方法 。 当 某 个 维度 在 单一 事实 表 中 同时 出 现 
多 次 时 ， 则 会 存在 维度 模型 的 角色 扮演 。 基 本 维度 可 能 作为 单一 物理 
表 存 在 ， 但 是 每 种 角色 应 该 被 当成 标识 不 同 的 视图 展现 到 BI 工具 中 。 


在 标准 SQL 中 ， 使 用 order by 子 句 对 查询 结果 进行 排序 ， 而 在 我 们 
的 查询 中 使 用 的 是 cluster by 子 句 ， 这 是 Hive 有 别 于 SQL 的 地 方 。 


Hive 中 的 order by, sort by, distribute by, cluster by 子 句 都 用 于 对 
查询 结果 进行 排序 ， 但 处 理 方 式 是 不 一 样 的 。 


Hive 中 的 order by 跟 传统 的 SQL 语言 中 的 order by 作用 是 一 样 的 ， 
会 对 查询 的 结果 做 一 次 全 局 排序 ， 所 以 如 果 使 用 了 order by， 所 有 的 数 
据 都 会 发 送 到 同一 个 reducer 进 行 处 理 。 不 管 有 多 少 map， 也 不 管 文件 
有 多 少 block 只 会 启动 一 个 reducer， 因 为 多 个 reducer 无 法 保证 全 局 有 
序 。 对 于 大 量 数据 这 将 会 消耗 很 长 的 时 间 去 执行 。 


如 果 HiveQL 语 句 中 指定 了 sort by， 那 么 在 每 个 reducer 端 都 会 做 排 
序 ， 也 就 是 说 保证 了 局 部 有 序 。 每 个 reducer 出 来 的 数据 是 有 序 的 ， 但 


是 不 能 保证 所 有 数据 全 局 有 序 ， 除 非 只 有 一 个 reducer。 这样 做 的 好 处 
是 ， 执 行 了 局 部 排序 之 后 可 以 为 接 下 去 的 全 局 排序 提高 不 少 的 效率 
(其 实 就 是 做 一 次 归并 排序 就 可 以 做 到 全 局 有 序 了 ) 。 
ditribute by 是 控制 map 的 输出 在 reducer 中 是 如 何 划 分 的 。 假 设 有 一 
张 名 为 store 的 商店 表 ，mid 是 指 这 个 商店 所 属 的 商户 ，money 是 这 个 商 
户 的 僵 利 ，name 是 商店 的 名 字 。 执 行 Hive 查 询 : 


select mid 


, money, name 
from 


store distribute by mid 
sort by mid asc 


, money asc 


所 有 mid 相 同 的 数据 会 被 送 到 同一 个 reducer 去 处 理 ， 这 就 是 因为 
指定 了 distribute by mid， 这 样 的 话 就 可 以 统计 出 每 个 商户 中 各 个 商店 
鳃 利 的 排序 了 。 这 肯定 是 全 局 有 序 的 ， 因 为 相同 的 商户 会 放 到 同一 个 
reducer 去 处 理 。 这 里 需要 注意 的 是 distribute by 必须 要 写 在 sort by 之 
前 。 

cluster by 的 功能 就 是 distribute by 和 sort by 相 结 合 ， 但 是 排序 只 能 
是 升序 (至 少 Hive 1.1.0 是 这 样 的 ) ， 不 能 指定 排序 规则 为 asc 或 者 
desc。 获得 与 上 面 的 查询 语句 一 样 的 效果 的 cdluster by 写法 如 下 : 


select mid 
, money, name from 


store cluster by mid 


Sort by 


money; 


5. 一 种 有 问题 的 设计 


为 处 理 多 日 期 间 题 ， 一 些 设计 者 试图 建立 单一 日 期 维度 表 ， 该 表 
使 用 一 个 键 表示 每 个 订单 日 期 和 请 求 交 付 日 期 的 组 合 ， 例 如 : 


create table 


date dim (date sk int 


, order date date 


, delivery date date 


/ 
create table 


sales order fact (date sk int 


, Order amount int 


); 


这 种 方法 存在 两 个 方面 的 问题 。 首 先 ， 如 果 需 要 处 理 所 有 日 期 维 


度 的 组 合 情 况 ， 则 包含 大 约 每 年 365 行 的 


SSE AAR 
/月 AE. 


简单 的 日 期 维度 表 将 会 


极度 膨胀 。 例 如 ， 订 单 日 期 和 请 求 交 付 日 期 存在 如 下 多 对 多 天 系 : 


订单 日 期 

2016-07-17 
2016-07-18 
20116-07:19 
2016-07-17 
2016-07-18 
2016-07-19 
2016-07-17 
2016-07-18 
2016-07-19 


请 求 交付 日 期 
2016-07-20 
2016-07-20 
2016-07-20 
2016-07-21 
2016-07—21 
2016-07-21 
2016-07-22 
2016-07-22 
2016-07-22 


如 果 使 用 角色 扮演 维度 ， 日 期 维度 表 中 只 需要 2016-07-17 到 2016- 
07-22 6 条 记录 。 而 采用 单一 日 期 表 设 计 方案 ， 每 一 个 组 合 都 要 唯一 标 
识 ， 明 显 需要 九条 记录 。 当 两 种 日 期 及 其 组 合 很 多 时 ， 这 两 种 方案 的 
日 期 维度 表 记 录 数 会 相去 甚 远 。 


其 次 ， 合 并 的 日 期 维度 表 不 再 适合 其 他 经 常 使 用 的 日 、 周 、 月 等 
日 期 维度 。 日 期 维度 表 每 行 记录 的 含义 不 再 指 唯 一 一 天 ， 因 此 无 法 在 
同一 张 表 中 标识 出 周 、 月 等 一 致 性 维度 ， 进 而 无 法 简单 地 处 理 按时 间 
维度 的 上 卷 、 聚 合 等 需求 。 


10.4 “层次 维度 


大 多 数 维度 都 具有 一 个 或 多 个 层次 。 例 如 ， 示 例 数据 仓库 中 的 日 
期 维度 就 有 一 个 四 级 层次 : 年 、 季 度 、 月 和 日 。 这 些 级 别 用 date_dim 
表 里 的 列表 示 。 日 期 维度 是 一 个 单 路 径 层 次 ， 因 为 除了 年 -季度 -月 -日 
这 条 路 径 外 ， 它 没有 任何 其 他 层次 。 为 了 识别 数据 仓库 里 一 个 维度 的 
层次 ， 首 先 要 理解 维度 中 列 的 含义 ， 然 后 识别 两 个 或 多 个 列 是 否 具有 
相同 的 主题 。 例 如 ， 年 、 季 度 、 月 和 日 具有 相同 的 主题 ， 因 为 它们 都 
是 关于 日 期 的 。 具 有 相同 主题 的 列 形成 一 个 组 ， 组 中 的 一 列 必须 包含 
至 少 一 个 组 内 的 其 他 成 员 (除了 最 低级 别 的 列 ) ， 如 在 前 面 提 到 的 组 
中 ， 月 包含 日 。 这 些 列 的 链条 形成 了 一 个 层次 ， 例 如 ， 年 -季度 -月 -日 
这 个 链条 是 一 个 日 期 维度 的 层次 。 除 了 日 期 维度 ， 客 户 维度 中 的 地 理 
位 置信 息 ， 产 品 维度 的 产品 与 产品 分 类 ， 也 都 构成 层次 关系 。 表 10-1 
显示 了 三 个 维度 的 层次 。 注 意 客户 维度 具有 双 路 径 层 次 。 


表 10-1 销售 订单 数据 仓库 中 的 层次 维度 


product dim date, dim 
shipping address 


shipping zip code product category month 


customer city shipping city quarter 


customer state shipping state year 


本 节 描 述 处 理 层次 关系 的 方法 ， 包 括 在 固定 深度 的 层次 上 进行 分 
组 和 和 钻 取 查询 ， 弟 归 层 次 结构 的 数据 装载 、 展 开 与 平面 化 ， 多 路 径 层 
次 和 参差 不 齐 层次 的 处 理 等 。 我 们 从 最 基本 的 情况 开始 讨论 。 


10.41 国定 深度 的 层次 


固定 深度 层次 是 一 种 一 对 多 关系 ， 例 如 ， 一 年 中 有 四 个 季度 ， 一 
个 季度 包含 三 个 月 等 。 当 固定 深度 层次 定义 完成 后 ， 层 次 就 具有 固定 
的 名 称 ， 层 次 级 别 作 为 维度 表 中 的 不 同属 性 出 现 。 只 要 满足 上 述 条 
件 ， 固 定 深 度 层次 就 是 最 容易 理解 和 查询 的 层次 关系 ， 国 定 层次 也 能 
够 提供 可 预测 的 、 快 速 的 查询 性 能 ， 可 以 在 固定 深度 层次 上 进行 分 组 
和 钻 取 碍 询 。 
分 组 查询 是 把 度量 按照 一 个 维度 的 一 个 或 多 个 级 别 进 行 分 组 聚 
合 。 下 面 的 脚本 是 一 个 分 组 查询 的 例子 。 该 查询 按 产品 
(product_category 列 ) 和 日 期 维度 的 三 个 层次 级 别 (year. quarter 
month 列 ) 分 组 返回 销售 金额 。 


select 
product category, year 
,quarter,month, sum 


(order amount) s amount 
from 


sales order fact a,product dim b,date dim c 
where 


a.product sk = b.product sk 
and 


a.order date sk = c.date sk 
group by 


product category, year 


, quarter, month 


cluster by 
product category, year 


, quarter, month 
/ 


这 是 一 个 非常 简单 的 分 组 查询 ， 结 果 输 出 的 每 一 行 度量 (销售 订 
单 金 额 ) 都 沿 着 年 -季度 -月 的 层次 分 组 。 

与 分 组 查询 类 似 ， 钻 取 查 询 也 把 度量 按照 一 个 维度 的 一 个 或 多 个 
级 别 进 行 分 组 。 但 与 分 组 查询 不 同 的 是 ， 分 组 查询 只 显示 分 组 后 最 低 
级 别 ， 即 本 例 中 月 级 别 上 的 度量 ， 而 钻 取 查询 显示 分 组 后 维度 每 一 个 
级 别 的 度量 。 下 面 使 用 两 种 方法 进行 钻 取 查询 ， 结 果 显示 了 每 个 日 期 
维度 级 别 ， 即 年 、 季 度 和 月 各 级 别 的 订单 汇总 金额 。 


-- #}H union all 
select product category, time, order amount 
from 
( select product category, 
case when sequence = | then concat('year: ', time) 
when sequence = 2 then concat('quarter: ', time) 
else concat('month: ', time) 
end time, 
order amount, sequence, date 
from 
( select product category, min(date) date, year time, | sequence, sum(order amount) 
order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year 
union all 
select product category, min(date) date, quarter time, 2 sequence, 
sum(order amount) order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year , quarter 
union all 
select product category, min(date) date, month time, 3 sequence, 
sum(order amount) order amount 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 
and a.order date sk = c.date sk 
group by product category , year , quarter , month) x 
cluster by product category , date , sequence , time) y; 


-- 使 用 grouping id mifi 
select product category, time, order amount 
from (select product category, 
case when gid = 3 then concat('yesr: ', year) 
when gid = 7 then concat('quarter: ', quarter) 

else concat('month: ', month) 

end time, 

order amount, gid, date 

from ( select product category, 
year, 
quarter, 
month, 
min(date) date, 
sum(order amount) order amount, 
cast(grouping id as int) gid 
from sales order fact a, product dim b, date dim c 
where a.product sk = b.product sk 

and a.order date sk = c.date sk 

group by product category,year,quarter,month with rollup 
) x where gid > 1 

cluster by product category , date , gid , time) y; 


以 上 两 种 不 同 写法 的 查询 语句 结果 是 相同 的 。 第 一 条 语句 的 子 查 
询 中 使 用 union all 集 合 操作 将 年 、 季 度 、 月 三 个 级 别 的 汇总 数据 联合 成 


一 个 结果 集 。 注 意 union al 的 每 个 查询 必须 包含 相同 个 数 和 类 型 的 字 
段 。 附 加 的 min(date) 和 sequence 导 出 列 用 于 对 输出 结果 排序 显示 。 这 
种 写法 使 用 标准 的 SQL 语法 ， 具 有 通用 性 。 


第 二 条 语句 使 用 HiveQL 提 供 的 grouping}}jid 了 因数 (注意 是 两 个 下 
划 线 ) 和 with rollup 子 句 。rollup 会 生成 按 产品 类 型 、 年 、 季 度 、 月 及 
其 所 有 分 组 的 聚合 数据 行 。 


with rollup 是 SQL 中 通用 的 语法 ， 它 只 能 和 group by 语句 一 同 使 
用 。rollup 子 句 常 被 用 于 计算 一 个 维度 中 各 个 层级 的 聚合 数据 。 例 如 : 


select a, b, c, sum(d) from tabi group by a, b, c with rollup 


, 


这 条 语句 假设 层次 是 从 “a” 下 钻 到 “b” 再 下 钻 到 “c”。 与 该 语句 等 价 
的 group by 语句 为 : 


select a, b, c, sum(d) from tabi group by a, b, c 

union all 

select a, b, null, sum(d) from tab1 group by a, b, null 

union all 

select a, null, null, sum(d) from tabi group by a, null, null 
union all 

select null, null, null, sum(d) from tabi ; 


在 上 面 的 例子 中 ，group by 后 面 不 跟 任何 列 求 sum 时 ，a、b、<c 三 
列 在 聚合 数据 行 会 显示 为 null。 当 列 本 身 具有 null 值 时 ， 就 会 产生 竟 
消 ， 无 法 区 分 查询 结果 中 的 null 值 是 属于 列 本 身 的 还 是 聚合 的 结果 
行 ， 因 此 需要 一 种 方法 识别 出 列 中 的 null 值 。grouping_id 了 因数 就 是 此 场 
景 下 的 解决 方案 。 
这 个 函数 为 每 种 聚合 数据 行 生 成 唯一 的 组 id。 它 的 返回 值 看 起 来 
像 整 型 数值 ， 其 实 是 字符 串 类 型 ， 这 个 值 使 用 了 位 图 策略 
(bitvector， 位 向 量 ) ， 即 它 的 二 进 制 形式 中 的 每 一 位 表示 对 应 列 是 


否 参 与 分 组 ， 如 果菜 一 列 参与 了 分 组 ， 对 应 位 就 被 置 为 1， 否 则 为 0。 
通过 这 种 方式 可 以 区 分 出 数据 本 身 中 的 null 值 。 考 虑 下 面 的 例子 : 


Columnl (key) Column2 (value) 
NULL 
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下 面 的 查询 语句 及 其 返回 的 结果 为 : 


select key, value, grouping (id, count(*) from tl 
group by key, value with rollup; 

null null 0 6 
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注意 第 三 列 是 聚合 列 的 位 向 量 。 对 于 第 一 行 数 据 ，grouping_ id 的 
值 为 0， 说 明 这 行 是 不 按 任何 列 分 组 聚合 生成 的 行 。 第 二 行 的 
grouping id 的 值 为 1， 说 明 按 是 第 一 列 分 组 生成 的 聚合 数据 行 。 第 三 
行 的 grouping_ id 的 值 为 ?3， 说 明 是 按 两 列 分 组 聚合 的 行 ， 此 行 不 是 因 
为 rollup 生 成 的 行 ， 而 是 查询 本 身 的 结果 行 。 据 此 分 析 ， 上 面 结 果 中 粗 
体 显 示 的 两 行 记 录 中 的 null 值 为 value 列 中 的 null， 而 不 是 rollup 行 中 的 


nullo 


grouping id 国 数 返回 值 的 范围 由 分 组 的 字段 数 决定 ， 例 如 销售 订 
单 钻 取 查 询 中 按 product_category、year、quarter、month 4 列 分 组 ， 则 
位 向 量 为 四 位 。 根 据 分 组 的 顺序 ， 全 部 按 零 列 分 组 聚合 行 的 
grouping id 值 为 0， 按 product_category 分 组 聚合 的 行 grouping__id 值 为 
1， 以 此 类 推 ， 按 year、gquarter、month 分 组 聚合 行 的 grouping _ id 分 别 


是 3、7、15。 查 询 中 使 用 where gid > 1 条 件 过 滤 ， 剩 下 的 就 是 按 年 、 季 
度 、 月 分 组 聚合 的 行 。min(date) 和 cast(grouping _id as int) 导 出 列 也 用 
于 对 输出 结果 排序 显示 。 


10.4.2 ”递归 


数据 仓库 中 的 关联 实体 经 党 表现 为 一 种 “ 父 一 子 ”关系 。 在 这 种 类 
型 的 关系 中 ， 一 个 父 杀 可 能 有 多 个 孩子 ， 而 一 个 孩子 只 能 属于 一 个 父 
杀 。 例 如 ， 通 单一 名 企业 员工 只 能 被 分 配 到 一 个 部 门 ， 而 一 个 部 门 会 
有 很 多 员工 。“ 父 一 子 ” 之 间 形 成 一 种 递归 型 树 结构 ， 是 一 种 比较 理想 
和 灵活 的 存储 层次 关系 的 数据 结构 。 本 小 万 说 明 一 坚 递归 处 理 的 问 
题 ， 包 括 数据 装载 、 树 的 展开 、 递 归 查 询 、 树 的 平面 化 等 技术 实现 。 
销售 订单 数据 仓库 中 没有 递归 结构 ， 为 了 保持 示例 的 完整 性 ， 本 小 节 
将 会 使 用 另 一 个 与 业务 无 天 的 通用 示例 。 


1. 建立 示例 表 并 添加 实验 数据 


-- 在 mysql 的 source 库 中 建立 源 表 
use 


source; 
create table 


tree (c child int 
, c name varchar 


(100),c parent int 


/ 
create index 
idx1 on 


tree (c parent); 
create unique index 


tree_pk on 


tree (c child); 
-- 递归 树 结构 ，c_child 是 主键 ，c_parent 是 引用 c_chi1ld 的 外 键 
alter table 


tree add 
(constraint 
tree_pk primary key 


(c child)); 
alter table 


tree add 

(constraint 

tree r01 foreign key 
(c parent) references 


tree (c child)); 
-- 添加 数据 


insert into 


tree (c child, c name, c parent) 
values 


(1, 'ri', null 


Jy 2; "BEA, 1), (3, UB ERS S, 1), (4, ' 节 点 4'， L); 
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(9，' 节 点 9'，3), (10，' 节 点 10'，4), (11，' 节 点 11'，4); 
commit 


1 
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-- 在 hive 的 rds 库 中 建立 过 渡 表 
use 


rds; 


create table 
tree (c child int 
,Cc name varchar 
(100),c parent int 
); 
-- 在 hive 的 dw 库 中 建立 相关 维度 表 


USe 


dw; 
create table 


tree dim 
(sk int 


,C child int 
,Cc name varchar 


(100),c parent int 


, 


version int 
,effective date date 


,expiry date date 


) 
clustered by 
(sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
以 上 脚本 用 于 建立 递归 结构 的 测试 数据 环境 。 我 们 在 


库 中 建立 了 名 为 tree 的 表 ， 并 插入 了 11 条 测试 数据 。 该 表 只 有 子 节 点 、 
节点 名 称 、 父 节点 3 个 字段 ， 其 中 父 节 点 是 引用 子 节点 的 外 键 ， En 


成 一 个 典型 的 递归 结构 。 可 以 把 tree 表 想象 成 体现 员工 上 下 级 关系 的 一 
种 抽象 。 效 据 仑 库 过 渡 区 的 表 结 构 和 产 表 一 样 ， 使 用 Hive 表 默认 的 文 
本 文件 格式 。 数 据 仓库 维度 表 使 用 ORC 存 储 格式 ， 为 演示 SCD2， 除 了 
对 应 源 表 的 3 个 字段 ， 还 增加 了 代理 键 、 版 本 号 、 生 效 时 间 和 过 期 时 间 
4 个 字段 。 初 始 时 源 表 数据 的 递归 树 结 构 如 图 10-3 所 示 。 


(4) 
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图 10-3 ”递归 树 的 初始 数据 
2。 数 据 装载 


递归 树 结构 的 本 质 是 ， 在 任意 时 刻 ， 每 个 父 一 子 关 系 都 是 唯一 
的 。 通 常 ， 操 作 型 系统 只 维护 层次 树 的 当前 视图 。 因 此 ， 输 入 数据 仓 
库 的 数据 通常 是 当前 层次 树 的 时 间 点 快照 ， 这 就 需要 由 ETL 过 程 来 确 
定 发 生 了 哪些 变化 ， 以 便 正 确 记录 历史 信息 。 为 了 检测 出 过 时 的 父 一 
子 关 系 ， 必 须 通 过 孩子 键 进行 查询 ， 然 后 将 父亲 作为 结果 返回 。 在 这 
个 例子 中 ， 对 tree 表 采用 整体 拉 取 模式 抽 数 据 ，tree_dim 表 的 c_name 和 
c_parent 列 上 使 用 SCD2 装 载 类 型 。 也 就 是 说 ， 把 c_parent 当 作 源 表 的 一 
个 普通 属性 ， 当 一 个 节点 的 名 字 或 者 父 节点 发 生变 化 时 ， 都 增加 一 条 
新 版 本 记录 ， 并 设置 老 版 本 的 过 期 时 间 。 这 样 的 装载 过 程 和 销售 订单 
的 例子 并 无 二 致 。 我 们 创建 init_etl tree.sh 、 init etl. tree.sql ~ 
regular_et]_tree.sh、regular_etl_tree.sql 4 个 脚本 实现 tree_dim 维 度 表 的 初 
台 装 载 和 定期 装载 。 


init_etl_tree.sh 文 件 用 于 初始 装载 ， 其 内 容 如 下 : 


#!/bin/bash 


sqoop import --connect jdbc:mysq1://cdh1:3306/source? 


useSSL-false --username root --password 


myassword --table tree --hive-import --hive-table rds.tree -- 


hive-overwrite 


beeline -u jdbc:hive2://cdh2:10000/dw -f init etl tree.sql 


init etl tree,sql 文 件 内 容 如 下 : 
use 


truncate table 


tree dim; 
insert into 


tree dim 
select row number() 


over (order by 


t1.c child) + t2.sk max, 


ti.c child, ti.c name, ti.c parent, 1, '2016-03-01', 


01-01' 
from 


rds.tree t1 
cross join 


(select coalesce(max 
(Ssk),0) sk max from 


tree dim) t2; 


' 2200- 


初始 装载 的 过 程 很 简单 ， 用 Sqoop 全 量 抽取 数据 到 过 渡 区 ， 然 后 
装载 进 数 据 仓库 ， 同 时 生成 代理 键 和 其 他 字段 。 有 了 前 面 章节 的 基 


础 ， 这 些 都 很 好 理解 。 


regular etl _ tree.sh 文 件 用 于 定期 装载 ， 其 内 容 如 下 : 

#!/bin/bash 

sqoop import --connect jdbc:mysq1://cdh1:3306/source? 
useSSL-false --username root --password 

myassword --table tree --hive-import --hive-table rds.tree -- 
hive-overwrite 

beeline -u jdbc:hive2://cdh2:10000/dw -f regular etl tree.sql 


regular etl tree.sql 文 件 内 容 如 下 : 
-- 设置 变量 以 支持 事务 ... 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 

-- 设置 cdc 的 上 限时 间 


-- Sdc2 设 置 过 期 
update 


tree dim set 


expiry date = ${hivevar:pre_date} 
where 


tree dim.sk in 


(select 


a.sk 
from 


(select 


sk,c child,c name,c parent 
from 


tree dim where 


expiry date = ${hivevar:max_date}) a 
left join 


rds.tree b on 


a.c child = b.c child 
where 


b.c child is null 


or 
(!(a.c name <=> b.c name) or 


!(a.c parent <=> b.c parent) )); 


-- scd2 新 增 版 本 


insert into 


tree dim 
select row number() 


over (order by 

t1.c child) + t2.sk max, 

ti.c child, ti.c name, ti.c parent, 

ti.version, ti.effective date, ti.expiry date 
from 

(select 

t2.c child c child, t2.c name c name, t2.c parent c parent, 
ti.version + 1 version, 
$(hivevar:pre date) effective date, $([hivevar:max date) 
expiry date 

from 


tree dim t1 
inner join 


rds.tree t2 on 


t1.c child = t2.c child 
and 


ti.expiry date = $(hivevar:pre date? 
left join 


tree dim t3 on 


t1.c child = t3.c child 
and 


t3.expiry date = $([hivevar:max date) 
where 


(!(t1.c name <=> t2.c name) or 


I(ti.c parent <=> t2.c parent)) 
and 


t3.sk is null 


) t1 
cross join 


(select coalesce (max 
(sk),©) sk max from 


tree dim) t2; 
-- 新 增 的 记录 


insert into 


tree dim 
select row number() 


over (order by 

t1.c child) + t2.sk max, 
ti.c child, ti.c name, ti.c parent, 
1, $(hivevar:pre date), $(hivevar:max date) 
from 

(select 


t1.* from 


rds.tree t1 
left join 


tree dim t2 on 
t1.c child = t2.c child where 
t2.sk is null 


) ci 
cross join 


(select coalesce(max 


(sk),©) sk max from 


tree dim) t2; 
-- 更 新 时 间 惟 表 的 last_1oad 字 段 ... 


上 面 的 代码 只 列 出 了 SCD2 的 处 理 部 分 ， 它 和 销售 订单 的 处 理 类 
似 。 下 面 测 试 装载 过 程 。 
(1) 执行 初始 装载 。 


./init etl tree.sh 


此 时 查询 dw.tree_dim 表 ， 可 以 看 到 新 增 了 全 部 11 条 记录 。 
(2) 修改 源 表 所 有 节点 的 名 称 。 


-- 修改 名 称 
Update 


tree set 


c name - concat(c name,' 1'); 


(3) 将 regular_etl.sql 文 件 中 的 set hivevar:cur date = current. date(); 
行 改 为 set hivevar: cur date = '2016-07-27': 后 ， 执 行 定 期 装载 。 


./regular etl tree,sh 


此 时 查询 dw.tree_dim 表 ， 可 以 看 到 维度 表 中 共有 22 条 记录 ， 其 中 
新 增 11 条 当前 版 本 记录 ， 老 版 本 的 11 条 记录 的 过 期 时 间 字 段 被 设置 
为 '2016-07-26'。 


(4) 修改 源 表 部 分 节点 的 名 称 ， 并 新 增 两 个 节点 。 


- - 修改 名 称 
update 


tree set 


c name = replace 


(c name,' 1',' 2!) 
where 


c child in 


(1, 3, 5, 8, 11); 
-- 增加 新 的 根 节点 ， 并 改变 原来 的 父子 关系 


insert into 


tree values 
(12, 'R12', null 


JR 
Update 


tree 
Set 


c parent = (case when 
c child - 1 then 
12 else 


13 end 


) 


where 
c child in 


(1,3); 


此 时 产 表 数据 的 递归 树 结构 如 图 10-4 所 示 : 


(12) 


5 ) | 6 | z (10) (12) (8) (9) 
图 10-4 新 增 了 根 节点 
(5) 将 regular etl.sql 文件 中 的 SET hivevar:cur date = 


CURRENT_DATE(); 行 改 为 SET hivevar:cur_date = '2016-07-28'; 后 ， 执 
行 定期 装载 。 


./regular etl tree.sh 


此 时 查询 dw.tree_dim 表 可 以 看 到 ， 现 在 维度 表 中 共有 29 条 记录 ， 
其 中 新 增 7 条 当前 版 本 记录 (5 行 因 为 改名 新 增 版 本 ， 其 中 1、3 既 改名 
又 更 新 父子 关系 ，2 行 新 增 节点 ) ， 更 新 了 5 行 老 版 本 的 过 期 时 间 ， 被 
设置 为 '2016-07-27'。 


(6) 修改 源 表 部 分 节点 的 名 称 ， 并 删除 三 个 节点 。 


update 


tree 
set 


c_name = (case when 


c child = 2 then 
'45:552 2' else 


节点 3 3' end 


) 


where 
c child in 


C273) 
delete from 


tree where 
c child in 


(10,11, 4); 
此 时 源 表 数据 的 递归 树 结构 如 图 10-5 所 示 : 


(12) 


图 10-5 “删除 子 树 


(7) 将 regular etl.sql 文件 中 的 SET hivevar:cur date = 
CURRENT. DATE(; fT EX A SET hivevar:cur date = '2016-07-29'; 后 ， 执 
行 定 期 装载 。 


./regular etl tree.sh 


此 时 查询 dw.tree_dim 表 可 以 看 到 ， 现 在 维度 表 中 共有 31 条 记录 ， 
其 中 新 增 2 条 当前 版 本 记录 (因为 改名 ) ， 更 新 了 5 行 老 版 本 的 过 期 时 
ig] (2 行 因为 改名 ，3 行 因为 节点 删除 ) ， 被 设置 为 '2016-07-28'。 


3。 树 的 展开 


有 些 BI 工 具 的 前 端 不 支持 递归 ， 这 时 递归 层次 树 的 数据 交付 技术 
就 是 “展开 ” (explode) 递归 树 。 展 开 是 这 样 一 种 行为 ， 一 边 遍 历 递 归 
树 ， 一 边 产 生 新 的 结构 ， 该 结构 包含 了 贯穿 树 中 所 有 层次 的 每 个 可 能 
的 关系 。 展 开 的 结果 是 一 个 非 弟 归 的 关系 对 表 ， 该 表 也 可 能 包含 描述 
层次 树 中 关系 所 处 位 置 的 有 关 属 性 。 将 树 展开 消除 了 对 递归 查询 的 需 
求 ， 因 为 层次 不 再 需要 自 连 接 。 当 按 这 种 表格 形式 将 数据 交付 时 ， 使 
用 简单 的 SQL 查询 就 可 以 生成 层次 树 报表 。 下 面 说 明 树 展 开 的 实现 。 


-- 建立 展开 后 的 目标 表 


create table 

tree expand (c child int 

,C parent int 

,distance int 

); 

展开 后 的 表 中 不 再 有 递归 结构 ， 每 行 表示 一 对 父子 天 系 ，distance 

字段 表示 父子 之 间 相 差 的 级 别 。 许 多 关系 数据 库 都 提供 递归 查询 的 功 
能 ， 例 如 在 Oracle 中 ， 就 可 以 使 用 下 面 的 代码 展开 递归 树 。 


- 0racle 实 现 
insert into 


tree expand (c child, c parent, distance) 
with 


rec (c child, c parent, distance) as 


select 


c child, c child, 0 from 


tree 
union all 


select 


r.c child, s.c parent, r.distance + 1 
from 


rec r join 
tree s on 


r.c parent - s.c child 
where 


s.c parent is not null 


) 


select * from 


rec; 


目前 Hive 还 没有 递归 碍 询 功能 ， 但 可 以 使 用 UDTF 来 实现 。 下 面 
BY f 63 HX Bl https://www.pythian.com/blog/recursion-in-hive/ (原来 的 代 
码 中 缺少 import 部 分 )  ， 它 使 用 Scala 语 言 实现 了 一 个 UDTF 用 于 展开 
Wo 。 X 于 UDTF 的 API 说 E , B F 
https://hive.apache.org/javadocs/r0.10.0/api/org/apache/hadoop/hive/ql/udf/ 
generic/GenericUDTF.htmlo 


package UDF 

import org.apache.hadoop.hive.gl.udf.generic.GenericUDTF 
import 
org.apache.hadoop.hive.serde2.0bjectinspector.primitive 
import org.apache.hadoop.hive.serde2.objectinspector. 
{ObjectInspectorFactory, 

StructObjectInspector, ObjectInspector, 
PrimitiveObjectInspector) 


class ExpandTree2UDTF extends GenericUDTF { 
var inputOIs: Array[PrimitiveObjectInspector] - null 


val tree: collection.mutable.Map[String,Option[String]] = 
collection.mutable.Map() 


override def initialize(args: Array[ObjectInspector]): 

StructObjectInspector = { 

inputOIs = 
args.map{_.asInstanceOf [PrimitiveObjectInspector |} 

val fieldNames = java.util.Arrays.asList("id", 
"ancestor", "level" ) 

val fieldOI = 
primitive.PrimitiveObjectInspectorFactory.javaStringObjectins 
pector.asInstanceOf [Ob 
jectInspector] 

val fieldOIs - java.util.Arrays.asList(fieldOI, fieldOI, 
fieldOI) 


ObjectInspectorFactory.getStandardStructObjectInspector(field 
Names, fieldOIs); 


def process(record: Array[Object]) { 

val id - 
inputOIs(0).getPrimitiveJavaObject(record(0)).asInstanceOf[St 
ring] 

val parent - 
Option(inputOIs(1).getPrimitiveJavaObject(record(1)).asInstan 
ceOf [String] ) 

tree += ( id -> parent ) 


} 
def close { 
val expandTree = 
collection.mutable.Map[String, List[String]]() 
def calculateAncestors(id: String): List[String] = 
tree(id) match { case Some(parent) => id :: 
getAncestors(parent) ; case None 
=> List(id) } 
def getAncestors(id: String) = 
expandTree.getOrElseUpdate(id, 
calculateAncestors(id)) 
tree.keys.foreach( id => 
getAncestors(id).zipWithIndex.foreach( case(ancestor, level) 
-» forward(Array(id, 
ancestor, level)) } } 


Iob: 


将 这 段 代 码 编译 成 jar 包 后 ， 就 可 以 提供 给 Hive 使 用 。 这 里 生成 的 
jar 文 件 名 为 recursive-query.jar。 使 用 下 面 的 命令 将 相关 jar 包 复制 到 


HDFSo 


hdfs dfs -put recursive-query.jar /tmp/ 
hdfs dfs -put scala-library.jar /tmp/ 


执行 下 面 的 HiveQL 进 行 测试 。 


-- 添加 运行 时 jar 包 
add 


jar hdfs://cdh2:8020/tmp/recursive-query.jar; 
add 


jar hdfs://cdh2:8020/tmp/scala-library.jar; 
-- 建立 函数 
create function 


expand tree as 


'UDF.ExpandTree2UDTF ' ; 
-- 使 用 UDTF 生 成 展开 后 的 数据 


insert 
overwrite table 


rds.tree expand 
select 


expand tree(cast 
(c child as 
string), cast 

(c parent as 
string)) from 


rds.tree; 


此 时 查询 rds.tree_expand 表 ， 可 以 看 到 记录 数 由 rds.tree 中 的 10 条 变 
为 展开 后 的 31 条 ， 部 分 展开 后 记录 如 下 所 示 : 


2 


. J AA UTA: L5 NY NH NY 
. N 
WHR Oo ONM F&F © 


4. 遍历 查询 


Hive 本 身 还 没有 递归 查询 功能 ， 但 正如 前 面 提 到 的 ， 使 用 简单 的 
SQL 碍 询 递 归 树 展开 后 的 数据 ， 即 可 生成 层次 树 报 表 ， 例 如 下 面 的 
HiveQL 语 句 实现 了 从 下 至 上 的 树 的 遍历 。 


select 


c_child, 
concat_ws 


('/',collect set(cast 
(c_parent as 
string))) as 


c_path 
from 


tree expand group by 
ccr il: 


XX & collect. settK AAI f/F Hxc parentzZ& E, (FERN, VY 
须 保证 collect_set 的 参数 类 型 是 string 类 型 。 查 询 结 果 如 下 所 示 。 


TAZ 
2 
3/13/12 
5/2/1/12 
6/2/1/12 
7/3/13/12 
8/3/13/12 
9/3/13/12 
12 

13/12 


Eg O OO) OY OT 1G) [9 f 


w N 


collect_set 冰 数 返 回去 重 的 元 素数 组 。 对 于 非 group by 字段 ， 可 以 
用 Hive 的 collect_set 国 数 收集 这 些 字 段 ， 返 回 一 个 数组 ， 使 用 数字 下 
标 ， 可 以 直接 访问 数组 中 的 元 素 。 假 设 表 中 数据 如 下 : 


qa a9 » p 
gonococso 
OY On 4 wN HB 


{# FHcollect setEK ZX Bx 38 18 8] e Z& ERAT: 


select cl, c2, collect set(c3) from t group by cl, c2; 
a b [517050 nono] 
c d [049159 i5] 

concat_wsPA 3X18 [n] FA FS XE PEA STB, RRA (15871 
的 操作 。 它 有 两 种 形式 ， 一 种 以 不 定 个 数 的 字符 串 为 参数 ， 另 一 种 以 
字符 串 数 组 为 参数 (从 Hive 0.9.0 开 始 支持 ) ， 分 别 如 下 所 示 : 


select concat ws('/','abc','123','cde','456'!) ; 
abc/123/cde/456 


select cl, c2, concat ws('/',collect set(c3)) from t group by cl, c2; 


a b 1/2/3 
e d 4/5/6 


5. 递归 树 的 平面 化 


递归 树 适合 于 数据 仓库 ， 而 非 递 归结 构 则 更 适合 于 数据 集 市 。 前 
面 的 递归 树 展 开 用 于 消除 递归 查询 ， 但 缺点 在 于 检索 与 实体 相关 的 属 


性 必须 执行 额外 的 连接 操作 。 对 于 层次 树 来 说 ， 很 常见 的 情况 是 ， 层 
次 树 元 素 所 拥有 的 唯一 属性 就 是 描述 属性 ， 如 本 例 中 的 c_name 字 段 ， 
并 且 树 的 最 大 深度 是 固定 的 ， 本 例 是 4 层 。 对 这 种 情况 ， 最 好 是 将 层次 
树 作为 平面 化 的 1NF 结 构 或 者 2NF 结 构 交 付 给 数据 集 市 。 这 类 平面 化 
操作 对 于 平衡 的 层次 树 发 挥 得 最 好 。 将 缺失 的 层次 置 空 可 能 会 形成 不 
整齐 的 层次 树 ， 因 此 它 对 深度 未 知 的 层次 树 ( 列 数 不 固 定 ) 来 说 并 不 
是 一 种 有 用 的 技术 。 下 面 说 明 递归 树 平面 化 的 实现 。 


-- 建立 展开 后 的 目标 表 


create table 


tree complanate 
(c. 0 int 


, €. 0 name varchar 
(100), c 1 int 
, Cd name varchar 


(100), 
c 2 int 


, C2 name varchar 
(100), c 3 int 
, C3 name varchar 
(100)); 
平面 化 后 ， 表 的 每 一 行 都 包含 全 部 四 个 层次 的 数据 。 执 行 下 面 的 
语句 生成 递归 树 平面 化 后 的 数据 ， 每 个 叶子 节点 一 行 。 


insert 
overwrite table 


rds.tree complanate 


select 
tOo.cCOc O,tíi.c name c O name,tO.c 1c 1,t2.c name c 1 name, 
t0.C 2c 2,t3.c name c 2 name, tO.c 3c 3,t4.c name 
c 3 name 
from 
(select 


Wists] € ©, Mist | erat Mise [4 eC 2 Sirol E_S 
from 


(select 


c child,split(c path,'/') list 
from 


(select 

c child, concat ws 
('/',collect set(cast 
(c parent as 


string))) 
as 


c path 
from 


tree expand group by 


C enko) E) E 
where size 


(list) = 4) to 
inner join 


(select * from 
tree) t1 on 


tO.c 0- ti1.c child 
inner join 


(select * from 


tree) t2 on 


tO.c 1- t2.c child 
inner join 


(select * from 
tree) t3 on 


tO.c 2- t3.c child 
inner join 


(select * from 
tree) t4 on 
COAC = Ae Eel 


splitKi 2X FH T8 XE: 2 73 B e TS, REETA. CE TRES 
的 数据 如 下 所 示 : 


T2 eke l Wi ee 2 wee 5 HAS 2 
12 节点 12 1 节点 1_2 2 节点 2 2 6 节点 6_1 
12 Armut BS) "sides S JEU 7 iA 71 
12 ruri d T3 jes 5) HAS S 8 H8 2 
12 Saati] I3 TEE S Tes 3 9 Wey Oo 1 


需要 注意 的 是 ，split 国 数 遇 到 特殊 字符 的 时 候 需要 做 转 义 处 理 。 
例如 : 


select 


split('192.168.0.1','.') 


[e "n "n "n "n" "n" "n "iW "n "n" "n "n 
, , , , , , , 


, , , T 
select 


split('192.168.0.1','\.') 
ny I A A 


select 


SPEBCC 192.108,01 ANS A 
["192", "168", dro mr P 


10.4.3 ”多 路 径 层 次 


本 小 节 讨 论 多 路 径 层 次 ， 它 是 对 单 路 径 层 次 的 扩展 。 现 在 数据 仓 
库 的 月 维度 只 有 一 条 层次 路 径 ， 即 年 -季度 -月 这 条 路 径 。 在 本 小 节 中 
增加 一 个 新 的 “促销 期 ?级别 ， 并 且 加 一 个 新 的 年 -促销 期 -月 的 层次 路 
径 。 这 时 月 维度 将 有 两 条 层次 路 径 ， 因 此 是 多 路 径 层 次 维度 。 

下 面 的 脚本 给 month_dim 表 添加 一 个 叫做 campaign_session 的 新 
列 ， 并 建立 rds.campaign_session 过 渡 表 。 


USe 


dw; 


-- 增加 促销 期 列 


alter view 
month dim rename to 


month dim old; 
create table 


month dim ( 
month sk int comment 


'surrogate key', 
month tinyint comment 


'month', 
month name varchar 


(9) comment 


'month name', 
campaign session varchar 


(30) comment 


'campaign session', 
quarter tinyint comment 


'quarter', 
year smallint comment 


'year' 
) 


comment 


'month dimension table' 
clustered by 


(month sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true') ; 
insert into 


month dim 
select 


month sk,month 
,month name,null 
,quarter,year from 


month dim old; 
drop view 


month dim old; 


-- 建立 促销 期 过 渡 表 


USe 


rds; 
create table 


campaign session 
(campaign session varchar 


(30),month tinyint 
,year smallint 


) 


row format 


delimited fields terminated by 


',' Stored as 
textfile; 
假设 所 有 促销 期 都 不 跨 年 ， 并 且 一 个 促销 期 可 以 包含 一 个 或 多 个 


月 份 ， 但 一 个 月 份 只 能 属于 一 个 促销 期 。 为 了 理解 促销 期 如 何 工作 ， 
表 10-2 给 出 了 一 个 促销 期 定义 的 示例 。 


表 10-2 2016 年 促销 期 


促销 期 月 份 

2016 年 第 一 促销 期 1 月 一 4 月 
2016 年 第 二 促销 期 5 H—1H 
2016 年 第 三 促销 期 8 月 

2016 年 第 四 促销 期 9 月 一 12 H 


每 个 促销 期 有 一 个 或 多 个 月 。 一 个 促销 期 也 许 并 不 是 正好 一 个 季 
度 ， 也 就 是 说 ， 促 销 期 级 别 不 能 上 卷 到 季度 ， 但 是 促销 期 可 以 上 卷 至 
年 级 别 。 假 设 2016 年 促销 期 的 数据 如 下 ， 并 保存 在 


campaign_session.csv 文 件 中 。 


2016 First Campaign,1,2016 
2016 First Campaign,2,2016 
2016 First Campaign,3,2016 
2016 First Campaign,4,2016 
2016 Second Campaign,5,2016 
2016 Second Campaign, 6, 2016 
2016 Second Campaign, 7, 2016 
2016 Third Campaign, 8, 2016 
2016 Last Campaign, 9, 2016 

2016 Last Campaign, 10,2016 
2016 Last Campaign, 11, 2016 
2016 Last Campaign, 12,2016 


现在 可 以 执行 下 面 的 脚本 把 2016 年 的 促销 期 数据 装载 进 月 维度 。 


load data local 


inpath '/root/campaign session.csv' overwrite 
into table 


rds.campaign session; 
use 


dw; 
drop table if exists 


tmp; 
create table 


tmp as 


select 
ti1.month sk month sk, 
ti.month month 


ti1.month name month name, 

t2.campaign session campaign session, 
ti.quarter quarter, 

ti.year year 


from 


month dim t1 
inner join 


rds.campaign session t2 on 
ti.year 


= t2.year 


and 
t1.month 


= t2.month 


delete from 


month dim 
where 


month dim.month sk in (select 
month sk from 


tmp); 
insert into 


month dim select * from 


tmp; 


此 时 查询 月 份 维度 表 ， 可 以 看 到 2016 年 的 促销 期 已 经 有 数据 ， 其 
他 年 份 的 campaign_session 字 段 值 为 null。 


10.44 “参差 不 齐 的 层次 


在 一 个 或 多 个 级 别 上 没有 数据 的 层次 称 为 不 完全 层次 。 例 如 在 特 
定 月 份 没有 促销 期 ， 那 么 月 维度 就 具有 不 完全 促销 期 层次 。 本 小 节 说 
明 不 完全 层次 ， 还 有 在 促销 期 上 如 何 应 用 它 。 


下 面 是 一 个 不 完全 促销 期 的 例子 ， 数 据 存 储 在 
ragged_campaign.csv 文 件 中 。2016 年 1 月 、4 月 、6 月 、9 月 、10 月 、11 
月 和 12 月 没有 促销 期 。 


,1,2016 

2016 Early Spring Campaign,2,2016 
2016 Early Spring Campaign,3,2016 
, 4,2016 

2016 Spring Campaign,5,2016 

, 6,2016 

2016 Last Campaign, 7, 2016 

2016 Last Campaign, 8, 2016 


下 面 的 命令 先 把 campaign_session 字 段 置 空 ， 然 后 向 month_dim 表 
装载 促销 期 数据 。 


load data local 


inpath '/root/ragged campaign.csv' 
overwrite into table 


rds.campaign session; 
use 


dw; 
update 


month dim set 


campaign session - null 


drop table if exists 


tmp; 
create table 


tmp as 


select 
ti1.month sk month sk, 
ti.month month 
ti1.month name month name, 
case when 


t2.campaign session !- '' then 


t2.campaign session 
else 


t1.month name 
end 


campaign session, 
ti.quarter quarter, 
ti.year year 
from 


month_dim t1 inner join 


rds.campaign_session t2 
on 


ti.year 
= t2.year and 
ti.month 


= t2.month 


delete from 


month_dim 
where 


month_dim.month_sk in 
(select 


month_sk from 


tmp); 
insert into 


month_dim select * from 
tmp, 

在 有 促销 期 的 月 份 ，campaign_session 列 填写 促销 期 名 称 ， 而 对 于 
没有 促销 期 的 月 份 ， 该 列 填写 月 份 名 称 。 轻 微 参 差 不 齐 层次 没有 固定 
的 层次 深度 ， 但 层次 深度 有 限 。 如 地 理 层次 深度 通常 包含 3~6 层 。 与 
其 使 用 复杂 的 机 制 构建 难以 预测 的 可 变 深度 层次 ， 不 如 将 其 变换 为 固 


定 深 度 位 置 设计 ， 针 对 不 同 的 维度 属性 确立 最 大 深度 ， 然 后 基于 业务 
规则 放置 属性 值 。 


10.5 ”退化 维度 


本 节 讨 论 一 种 称 为 退化 维度 的 技术 。 该 技术 减少 维度 的 数量 ， 简 
化 维度 数据 仓库 模式 。 简 单 的 模式 比 复杂 的 更 容易 理解 ， 也 有 更 好 的 
I 查询 | 性 能 。 


有 时 ， 维 度 表 中 除了 业务 主键 外 没有 其 他 内 容 。 例 如 ， 在 我 们 的 
销售 订单 示例 中 ， 订 单 维 度 表 除了 订单 号 ， 没 有 任何 其 他 属性 ， 而 订 
号 是 事务 表 的 主键 。 我 们 将 这 种 维度 称 为 退化 维度 。 业 务 系统 中 的 
主键 通 单 是 不 允许 修改 的 。 销 售 订 单 只 能 新 增 ， 不 能 修改 已 经 存在 的 
订单 号 ， 也 不 会 Bs a aan ee 有 历史 数据 版 
本 问题 。 退 化 维度 常见 于 事务 和 累积 快照 事实 表 中 。 我 们 将 在 11.2 节 
中 讨论 囚 积 快照 事实 表 技 术 。 


销售 订单 事实 表 中 的 每 行 记录 都 包括 作为 退化 维度 的 订单 号 代理 
键 。 在 操作 型 系统 中 ， 销 售 订 单 表 是 最 细 世 事务 表 ， 订 单 号 是 订单 胡 
的 主键 ， 每 条 订单 都 可 以 通过 订单 号 定位 ， 订 单 中 的 其 他 属性 ， 如 客 
户 、 产 品 等 ， 都 依赖 于 订单 号 。 也 就 是 说 ， 订 单 号 把 与 订单 属性 有 关 
的 表 联 系 起 来 。 但 是 ， 在 维度 模型 中 ， 事 实 表 中 的 订单 号 代理 键 通常 
与 订单 属性 的 其 他 表 没有 关联 。 可 以 将 订单 事实 表 所 有 关心 的 属性 分 
类 到 不 同 的 维度 中 ， 例 如 ， 订 单 日 期 关联 到 日 期 维度 ， 客 户 关 联 到 客 
户 维度 等 。 在 事实 表 中 保留 订单 号 最 主要 的 原因 是 用 于 连接 数据 仓库 
与 操作 型 系统 ， 它 也 可 以 起 到 事实 表 主 键 的 作用 。 某 些 情况 下 ， 可 能 
会 有 一 个 或 两 个 属性 仍然 属于 订单 而 不 属于 其 他 维度 。 当 然 ， 此 时 订 
单 维度 就 不 再 是 退化 维度 了 。 


退化 维度 通常 被 保留 作为 操作 型 事务 的 标识 符 。 实 际 上 可 以 将 订 
单 号 作为 一 个 属性 加 入 到 事实 表 中 。 这 样 订单 维度 就 没有 数据 仓库 需 
要 的 任何 数据 ， 此 时 就 可 以 退化 订单 维度 。 需 要 把 退化 维度 的 相关 数 
据 迁 移 到 事实 表 中 ， 然 后 删除 退化 的 维度 。 


注意 ， 操 作 型 事务 中 的 控制 号 码 ， 例 如 ， 订 单 号 码 、 发 票 号 码 、 
是 货 单 号 码 等 通常 产生 空 的 维度 并 且 表 示 为 事务 事实 表 中 的 退化 维 
度 。 


1. 退化 订单 维度 


使 用 维度 退化 技术 时 先 要 识别 数据 ， 分 析 从 来 不 用 的 数据 列 。 例 
如 ， 订 单 维度 的 order_number 列 就 可 能 是 这 样 的 一 列 。 如 果 用 户 想 看 
事务 的 细节 ， 还 需要 订单 号 。 因 此 ， 在 退化 订单 维度 前 ， 要 把 订单 号 
迁移 到 sales_order_fact 事 实 表 。 图 10-6 显 示 了 修改 后 的 模式 。 


按 顺 序 执行 下 面 的 四 步 退 化 order_dim 维 度 表 : 


(1) 给 sales_order_fact 表 添加 order_number 列 。 

(2) 把 order_dim 表 里 的 订单 号 迁移 到 sales_order_fact 表 。 
(3) 删除 sales_order_fact 表 里 的 order_sk 列 。 

(4) 删除 order_dim 表 。 


date_dim sale der_fact = cust d 
date sk <pi> db rder number customer sk £p? db 
dat customer sk «£2» customer numbe 
month Bu product_sk C1» customer name 
month name Bupa BA. order_date_sk 53» _ | eustomer street addr 
quart UT request delivery date sk <fi4> —— eustomer zip code 
year order amount customer city 

|_| order quantity customer state 
SIT shipping addrez 
$ shipping_zip_cod 
a shipping_city 
y shipping_state 
product_dim version 
: ffective dat 
product sk Spi? IÈ piry dat 
product code 
product name 
product category 
rsion 
ffective date 
piry date 


图 10-6 ”退化 订单 维度 


下 面 的 脚本 完成 所 有 退化 订单 维度 所 需 的 步骤 。 


USe 


dw; 
alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
product sk int comment 


'product SK', 
order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity') 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into table 


sales order fact 
select 


t2.o0rder number, 
ti.customer sk, 
ti.product sk, 
ti.order date sk, 
ti.request delivery date sk, 
ti.order amount, 
ti.order quantity 

from 


sales order fact old t1 
inner join 


order dim t2 on 
ti.order sk = t2.order sk; 
drop table 


sales order fact old; 
drop table 


order dim; 


虽然 到 目前 为 止 ， 订 单 号 维度 表 中 代理 键 和 订单 号 业务 主键 的 值 
相同 ， 但 还 是 建议 使 用 标准 的 方式 重新 生成 数据 ， 不 要 简单 地 将 事实 
表 的 order_ sk 字段 改名 为 order_ number， 这 种 图 省 事 的 做 法 不 值得 提 


倡 。 
2. 修改 定期 装载 脚本 


退化 一 个 维度 后 需要 做 的 另 一 件 事 就 是 修改 定期 装载 脚本 。 修 改 
后 的 脚本 需要 把 订单 号 加 入 到 销售 订单 事实 表 ， 而 不 再 需要 导入 订单 
维度 。 下 面 显示 了 修改 后 的 regular_etl.sql 脚 本 文件 内 容 (只 列 出 修改 
的 部 分 ) 。 


-- 设置 变量 以 支持 事务 ... 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 
-- 设置 cdc 的 上 限时 间 

-- 装载 customer 维 度 ... 

-- 重 载 pa 客户 维度 ... 

-- 装载 product 维 度 ... 

去 掉 装 载 order_dim 维 度 表 的 语句 


-- 装载 销售 订单 事实 表 
-- 前 一 天 新 增 的 销售 订单 


insert into 


sales order fact 
select 


a.order number, 
customer sk, 
product sk, 
e.order date sk, 
f.request delivery date sk, 
order amount, 
order quantity 
from 


rds.sales order a, 
customer dim c, 
product dim d, 
order date dim e, 
request delivery date dim f, 
rds.cdc time g 
where 


a.customer number = c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.date 


and to date 


(a.request delivery date) - f.request delivery date 
and 


a.entry date »- f.last load and 


a.entry date « f.current load ; 
-- 更 新 时 间 惟 表 的 last_1L1oad 字 段 ，.， 


3. 测试 修改 后 的 定期 装载 
(1) 准备 两 行销 售 订 单 测试 数据 。 


USe 
source; 
set 


Qstart date := unix timestamp('2016-07-25'); 
set 


Qend date := unix timestamp('2016-07-25 12:00:00'); 
set 


Qorder date := from unixtime(Qstart date + rand() 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 


(1000 + rand() 


* 9000); 
set 


Qquantity :- floor 

(10 + rand() 

* 90); 
insert into 

sales_order values (null 


,1,1,@order_date, '2016-08- 
01',@order_date, @amount, @quantity); 


set 


@start_date := unix_timestamp('2016-07-25 12:00:01'); 
set 


@end_date := unix_timestamp('2016-07-26'); 
set 


@order_date := from_unixtime(@start_date + rand() 


* (@end_date - @start_date)); 
set 


@amount := floor 
(1000 + rand() 


* 9900); 
set 


Qquantity :- floor 

(10 + rand() 

* 90); 
insert into 

sales order values (null 


,1,1,00rder date,'2016-08- 


01',Qorder date, @amount, Qquantity); 
commit 

以 上 语句 在 源 库 上 生成 2016 年 7 月 25 日 的 两 条 销售 订单 。 为 了 保证 
自 增 订单 号 与 订单 时 间 顺 序 相 同 ， 注 意 一 下 @order_date 变 量 的 赋值 。 

(2) 执行 定期 装载 。 

修改 定期 装载 时 间 窗 口 : 


insert 
overwrite table 


rds.cdc time 
select 


'2016-07-25', '2016-07-26' from 
rds.cdc time; 
将 regular_etl.sql 文 件 中 的 set hivevar:cur date = current. date(); £T PX 
为 set hivevar:cur date = '2016-07-26':。 
执行 定期 装载 : 


./regular etl.sh 


脚本 执行 成 功 后 ， 查 询 sales_order fact 表 ， 验 证 新 增 的 两 条 订单 
是 否 正 确 装 载 。 测 试 完 成 后 ， 将 regular etlsql 文 件 中 的 set 


So AUR = current_date(); 行 恢复 。 


10.6 ”杂项 维度 


本 节 讨 论 杂 项 维度 。 简 单 地 说 ， 杂 项 维度 就 是 一 种 包含 的 数据 具 
有 很 少 可 能 值 的 维度 。 事 务 型 商业 过 程 通常 产生 一 系列 混杂 的 、 低 基 
数 的 标志 位 或 状态 信息 。 与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 ， 不 
如 建立 单独 的 将 不 同 维度 合并 到 一 起 的 杂项 维度 。 这 些 维度 ， 通 常 在 
一 个 模式 中 标记 为 事务 型 概要 维度 ， 一 般 不 需要 所 有 属性 可 能 值 的 笛 
卡尔 积 ， 但 应 该 至 少 包含 实际 发 生 在 源 数 据 中 的 组 合 值 。 


例如 ， 在 销售 订单 中 ， 可 能 存在 有 很 多 离散 数据 (yes-no 这 种 开 
关 类 型 的 值 ) WD: 


verification ind (如 果 订 单 已 经 被 审核 ， 值 为 yes) o 

credit check flag (表示 此 订单 的 客户 信用 状态 是 否 已 经 被 检 

查 ) 。 

new customer ind (如 果 这 是 新 客户 的 首 个 订单 ， 值 为 yes) o 

web_order_flag (表示 一 个 订单 是 在 线 上 订单 还 是 线 下 订单 ) 。 
这 类 数据 常 被 用 于 增强 销售 分 析 ， 其 特点 是 属性 可 能 很 多 但 每 种 

属性 的 可 能 值 很 少 。 在 建 模 复杂 的 操作 型 关系 统 时 ， 经 常会 遭遇 大 量 

五 花 八 门 的 标志 或 状态 信息 ， 它 们 包含 小 范围 的 离散 值 。 处 理 这 些 较 

低 基 数 的 标志 或 状态 位 可 以 采用 以 下 几 种 方法 。 


1. 忽略 这 些 标志 和 指标 


暂且 将 这 种 回避 问题 的 处 理 方式 也 算 作 方 法 之 一 。 在 开发 ETL 系 
统 时 ， 如 果 它 们 是 微不足道 的 ，ETL 开 发 小 组 可 以 向 业务 用 户 询问 有 
关 忽 上 略 这 些 标志 的 必要 问题 ， 但 是 这 样 的 方案 通常 立即 就 被 否决 了 ， 
因为 有 人 偶尔 还 需要 它们 。 如 果 来 自 业 务 系统 的 标志 或 状态 是 难以 理 
解 且 不 一 致 的 ， 也 许 真 的 应 该 考虑 去 掉 它 们 。 


2. 保持 事实 表 行 中 的 标志 位 不 变 


还 以 销售 订单 为 例 ， 和 源 数 据 库 一 样 ， 我 们 可 以 在 事实 表 中 也 建 
立 这 四 个 标志 位 字段 。 在 装载 事实 表 时 ， 除 了 订单 号 以 外 ， 同 时 装载 
这 四 个 字段 的 数据 ， 这 些 字段 没有 对 应 的 维度 表 ， 而 是 作为 订单 的 属 
性 保留 在 事实 表 中 。 


这 种 处 理 方法 简单 直接 ， 装 载 程序 不 需要 做 大 量 的 修改 ， 也 不 需 
要 建立 相关 的 维度 表 。 但 是 一 般 我 们 不 希望 在 事实 表 中 存储 难以 识别 
的 标志 位 ， 尤 其 是 当 每 个 标志 位 还 配 有 一 个 文字 描述 字段 时 。 不 要 在 
事实 表 行 中 存储 包含 大 量 字符 的 描述 符 ， 因 为 每 一 行 都 会 有 文字 描 
述 ， 它 们 可 能 会 使 表 快 速 地 膨胀 。 在 行 中 保留 一 些 文 本 标志 是 令 人 反 
感 的 ， 比 较 好 的 做 法 是 分 离 出 单独 的 维度 表 保 存 这 些 标志 位 字段 的 数 
据 ， 它 们 的 数据 量 很 小 ， 并 且 极 少 改变 。 事 实 表 通 过 维度 表 的 代理 键 
引用 这 些 标志 。 


3. 将 每 个 标志 位 放 入 其 自己 的 维度 中 


例如 ， 为 销售 订单 的 四 个 标志 位 分 别 建立 四 个 对 应 的 维度 表 。 在 
装载 事实 表 数 据 前 先 处 理 这 四 个 维度 表 ， 必 要 时 生成 新 的 代理 键 ， 然 
后 在 事实 表 中 引用 这 些 代理 键 。 这 种 方法 是 将 杂项 维度 当 作 普通 维度 
来 处 理 ， 多 数 情况 下 这 也 是 不 合适 的 。 

首先 ， 当 类 似 的 标志 或 状态 位 字段 比较 多 时 ， 需 要 建立 很 多 的 维 
度 表 ， 其 次 事实 表 的 外 键 数 也 会 大 量 增 加 。 处 理 这 些 新 增 的 维度 表 和 
外 键 需要 大 量 修改 数据 装载 脚本 ， 还 会 增加 出 和 销 的 机 会 ， 同 时 会 给 
ETL 的 开发 、 维 护 、 测 试 过 程 带 来 很 大 的 工作 量 。 最 后 ， 杂 项 维度 的 
数据 有 自己 明显 的 特点 ， 即 属性 多 但 每 个 属性 的 值 少 ， 并 且 极 少 修 
改 ， 这 种 特点 决定 了 它 应 该 与 普通 维度 的 处 理 区 分 开 。 

作为 一 个 经 验 值 ， 如 果 外 键 的 数量 处 于 合理 的 范围 中 ， 即 不 超过 
20 个 ， 则 在 事实 表 中 增加 不 同 的 外 键 是 可 以 接受 的 。 但 是 ， 若 外 惫 列 
表 已 经 很 长 ， 则 应 该 避免 将 更 多 的 外 键 加 入 到 事实 表 中 。 


4. 将 标志 位 字段 存储 到 订单 维度 中 


可 以 将 标志 位 字段 添加 到 订单 维度 表 中 。 上 一 节 我 们 将 订单 维度 
表 作 为 退化 维度 删除 了 ， 因 为 它 除 了 订单 号 ， 没 有 其 他 任何 属性 。 与 
其 将 订单 号 当成 是 退化 维度 ， 不 如 视 其 为 将 低 基数 标志 或 状态 作为 属 
性 的 普通 维度 。 事 实 表 通过 引用 订单 维度 表 的 代理 键 ， 关 联 到 所 有 的 
标志 位 信息 。 

尽管 该 方法 精确 地 表示 了 数据 关系 ， 但 依然 存在 前 面 讨 论 的 问 
题 。 在 订单 维度 表 中 ， 每 条 业务 订单 都 会 存在 对 应 的 一 条 销售 订单 记 
录 ， 该 维度 表 的 记录 数 会 膨胀 到 跟 事 实 表 一 样 多 ， 而 在 如 此 多 的 数据 
中 ， 每 个 标志 位 字段 都 存在 大 量 的 见 余 ， 需 要 占用 很 大 的 存储 空间 。 
通常 维度 表 应 该 比 事实 表 小 得 多 。 


5. 使 用 杂项 维度 


处 理 这 些 标志 位 的 适当 替换 方法 是 仔细 研究 它们 ， 并 将 它们 包装 
为 一 个 或 多 个 杂项 维度 。 杂 项 维度 中 放置 各 种 离散 的 标志 或 状态 数 
据 ， 尽 管 为 每 个 标志 位 创建 专门 的 维度 表 会 非常 容易 定位 这 些 标志 信 
息 ， 但 这 会 增加 系统 实现 的 复杂 度 。 此 外 ， 正 因为 杂项 维度 的 值 很 
少 ， 也 不 会 频繁 使 用 它们 ， 所 以 不 建议 为 保证 单一 目的 分 配 存 储 空 
间 。 杂 项 维度 能 够 合理 地 存放 离散 属性 值 ， 还 能 够 维持 其 他 主要 维度 
的 存储 空间 。 在 维度 建 模 领 域 ， 杂 项 维度 术语 主要 用 在 DW/BI 专 业 人 
员 中 。 在 与 业务 用 户 讨论 时 ， 通 常 将 杂项 维度 称 为 事务 指示 器 或 事务 
概要 维度 。 


杂项 维度 是 低 基 数 标志 和 指标 的 分 组 。 通 过 建立 杂项 维度 ， 可 以 
将 标志 和 指标 从 事实 表 中 移出 ， 并 将 它们 放 入 到 有 用 的 多 维 框架 中 。 

对 杂项 维度 数据 量 的 估算 也 会 影响 其 建 模 策略 。 如 果 某 个 简单 的 
杂项 维度 包含 10 个 二 值 标 识 ， 例 如 ， 现 金 或 信用 卡 支付 类 型 、 是 否 审 


核 、 在 线 或 离线 、 本 国 或 海外 等 ， 则 最 多 将 包含 1024 (20) 行 。 假 
设 由 于 每 个 标志 都 与 其 他 标志 一 起 发 生 作 用 ， 在 这 种 情况 下 浏览 单一 
维度 内 的 标识 可 能 没什么 意义 。 但 是 ， 杂 项 维度 可 提供 所 有 标识 的 存 
储 ， 并 用 于 基于 这 些 标识 的 约束 和 报表 。 事 实 表 与 杂项 维度 之 间 存 在 
一 个 单一 的 、 小 型 的 代理 键 。 


另 一 方面 ， 如 果 具 有 高 度 非 关联 的 属性 ， 包 含 更 多 的 数量 值 ， 则 
将 它们 合并 为 单一 的 杂项 维度 是 不 合适 的 。 遗 憾 的 是 ， 是 否 使 用 统一 
杂项 维度 的 决定 并 不 完全 是 公式 化 的 ， 要 依据 具体 的 数据 范围 而 定 。 
如 果 存 在 5 个 标识 ， 每 个 仅 包 含 3 个 值 ， 则 单一 杂项 维度 是 这 些 属性 的 
最 佳 选择 ， 因 为 维度 最 多 仅 有 243 (3^5) 行 。 但 是 如 果 5 个 没有 关联 的 
标识 ， 每 个 具有 100 个 可 能 值 ， 建 议 建立 不 同 维度 ， 因 为 单一 杂项 维度 
表 最 大 可 能 存在 1 亿 (100^5) 行 。 


关于 杂项 维度 的 一 个 微妙 的 问题 是 ， 在 杂项 维度 中 行 的 组 合 确定 
并 已 知 的 前 提 下 ， 是 应 该 事先 为 所 有 组 合 的 完全 笛 卡 尔 积 建 立行 ， 还 
是 建立 杂项 维度 行 ， 只 用 于 保存 那些 在 源 系统 中 出 现 的 组 合 情 况 的 数 
据 。 答 案 要 看 大 概 有 多 少 可 能 的 组 合 ， 最 大 行 数 是 多 少 。 一 般 来 说 ， 
理论 上 组 合 的 数量 较 小 ， 比 如 只 有 几 自 行 时 ， 可 以 预 半 载 所 有 组 合 的 
效 据 ; 而 如 果 组 合 的 效 量 大 ， 那 么 在 效 据 获 取 时 ， 当 遇 到 新 标志 或 指 
标 时 ， 再 建立 杂项 维度 行 。 当 然 ， 如 果 源 数据 中 用 到 了 全 体 组 合 时 ， 
那 别 无 选择 只 能 预先 装载 好 全 部 杂项 维度 数据 。 


如 果 杂 项 维度 的 取 值 事先 并 不 知道 ， 只 有 在 获取 数据 时 才能 确 
定 ， 那 么 就 需要 在 处 理 业务 系统 事务 表 时 ， 建 立新 观察 到 的 杂项 维度 
行 。 这 一 过 程 需要 聚集 杂项 维度 属性 并 将 它们 与 已 经 存在 的 杂项 维度 
行 比较 ,已 确定 该 行 是 否 已 经 存在 。 如 果 不 存在 ， 将 组 建新 的 维度 
行 ， 建 立 代 理 键 。 在 处 理事 务 表 过 程 中 适时 地 将 该 行 加 载 到 杂项 维度 
中 。 


解释 了 杂项 维度 之 后 ， 将 它们 与 处 理 标 志 位 作为 订单 维度 属性 的 
方法 进行 比较 。 如 希望 分 析 订 单 事实 的 审核 情况 ， 其 订单 属性 包含 “是 
否 审 核 ” 标 志 位 ， 如 果 使 用 杂项 维度 ， 维 度 表 中 只 会 有 很 少 的 记录 。 而 
这 些 属 性 如 果 被 存储 到 订单 维度 中 ， 针 对 事实 表 的 约束 将 会 是 一 个 巨 
大 的 列表 ， 因 为 每 一 条 订单 记录 都 包含 “是 否 审核 ”" 标 志 。 在 与 事实 表 
关联 查询 时 ， 这 两 种 处 理 方式 将 产生 巨大 的 性 能 差异 。 


下 面 描述 销售 订单 示例 数据 仓库 中 杂项 维度 的 具体 实现 。 图 10-7 
显示 了 增加 杂项 维度 表 后 的 数据 仓库 模式 ， 这 里 只 显示 了 和 销售 订单 
事务 相关 的 表 。 


图 10-7 ”杂项 维度 


1. 新 增 销售 订单 属性 杂项 维度 


给 现 有 的 数据 仓库 新 增 一 个 销售 订单 属性 杂项 维度 。 需 要 新 增 一 
个 名 为 sales_order_attribute_dim 的 杂项 维度 表 ， 该 表 包 括 四 个 yes-no 
列 : verification ind 、 credit check flag ~ new_customer ind 和 
web order flag， 各 列 的 含义 已 经 在 本 节 开 头 说 明 。 每 个 列 可 以 有 两 个 
可 能 值 中 的 一 个 ，Y 或 N， 因 此 sales_order_attribute_dim 表 最 多 有 16 


(24) 行 。 我 们 假设 这 16 行 已 经 包含 了 所 有 可 能 的 组 合 ， 因 此 可 以 预 
装载 这 个 维度 ， 并 且 只 需 装 载 一 次 。 

注意 ， 如 果 知 道 某 种 组 合 是 不 可 能 出 现 的 ， 就 不 需要 装载 这 种 组 
合 。 执行 下 面 的 脚本 修改 数据 库 模式 。 这 个 脚本 做 了 四 项 工作 : 建立 
sales_order_attribute_dim 表 ; 向 表 中 预 装载 全 部 16 种 可 能 的 数据 ; 给 销 
售 订 单 事实 表 添 加 杂项 维度 代理 键 字段 ; 给 源 数据 库 里 的 sales_order 
表 增 加 对 应 的 四 个 属性 列 。 


use 

dw; 
-- 建立 杂项 维度 表 
create table 


sales order attribute dim ( 
sales order attribute sk int comment 


'sales order attribute SK', 
verification ind char 


(1) comment 


'verification index, y or n', 
credit check flag char 


(1) comment 


'credit check flag, y or n', 
new customer ind char 


(1) comment 


'new customer index, y or n', 
web order flag char 


(1) comment 


'web order flag, y or n', 
version int comment 


'version', 


effective date date comment 


'effective date', 
expiry date date comment 


'expiry date' 
) 
clustered by 
(sales order attribute sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


-- 生成 杂项 维度 数据 


insert into 


sales order attribute dim 
values 


(1, 'y', 'n', 'n', 'n', 1,'1900-00-00', '2200-01-01'); 
-- 共 插 入 16 条 记录 


-- 建立 杂项 维度 外 键 
alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 'sales order 
attribute SK' 


order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


‘order quantity' ) 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into table 


sales order fact 
select 


order number, 
customer sk, 
product sk, 
null 


order date sk, 
request delivery date sk, 
order amount, 
order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 


-- 给 源 库 的 销售 订单 表 增 加 对 应 的 属性 


USe 


source; 
alter table 


sales order 
add 


verification ind char 
(1) after 


product code 
, add 


credit check flag char 
(1) after 


verification ind 
, add 


new customer ind char 
(1) after 


credit check flag 
, add 


web order flag char 
(1) after 


new customer ind ; 


-- 给 销售 订单 过 渡 表 增加 对 应 的 属性 


USe 


rds; 
alter table 


sales order add 
columns 
( 


verification ind char 


(1) comment 


"verification index, y or n', 
credit check flag char 


(1) comment 


'credit check flag, y or n', 
new customer ind char 


(1) comment 


'new customer index, y or n', 
web order flag char 


(1) comment 


'web order flag, y or n' 


) ; 


和 所 有 维度 表 ( 除 日 期 相关 维度 ) 一 样 ， 为 了 处 理 可 能 的 SCD 情 
况 ， 订 单 属性 杂项 维度 表 也 具有 版 本 号 、 生 效 日 期 、 过 期 日 期 等 列 。 


2。 重建 Sqoop 作 业 


因为 源 数据 的 销售 订单 表 新 增 了 4 个 属性 列 ， 所 以 需要 在 增 量 抽取 
作业 中 增加 相应 的 列 。 


last_value= sqoop job --show myjob incremental import --meta- 
connect 

jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep 
incremental.last.value | awk '{print $3} 

sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 
--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order_number, customer_number, product_code, 
order_date, entry_date, order_amount, 


order quantity, request delivery date, verification ind, 
credit check flag, new customer ind 


web order flag" 


N 

--hive-import \ 

--hive-table rds.sales_order \ 
--incremental append \ 
--check-column order_number \ 
--last-value $last_value 


上 面 的 shell 脚 本 重建 Sqoop 增 量 数据 抽取 作业 。 注 意 --columns 参 数 
后 面 列 的 顺序 要 和 rds.sales_order 表 中 列 的 顺序 保持 一 致 。 


3. 修改 定期 装载 脚本 


由 于 有 了 一 个 新 的 维度 ， 必 须 修改 定期 装载 脚本 。 下 面 显 示 了 修 
改 后 的 regular_etl.sq] 脚 本 文件 内 容 (只 列 出 修改 的 部 分 ) 。 


-- 设置 变量 以 支持 事务 ... 

-- 设置 scd 的 生效 时 间 和 过 期 时 间 ... 
-- 设置 cdc 的 上 限时 间 ... 

-- 装载 customer 维 度 ... 

-- 重 载 pa 客户 维度 ... 

-- 装载 product 维 度 ... 

-- 装载 销售 订单 事实 表 .. . 

-- 前 一 天 新 增 的 销售 订单 


insert into 


sales order fact 
select 


a.order number, 

customer sk, 

product sk, 
g.sales order attribute sk 


e.order date sk, 
f.request delivery date sk, 
order amount, 
order quantity 
from 


rds.sales order a, 
customer dim c, 

product dim d, 

order date dim e, 

request delivery date dim f, 
sales order attribute dim g 


rds.cdc time h 
where 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.order date 
and to date 


(a.request delivery date) - f.request delivery date 
and a.verification ind - g.verification ind 


and a.credit check flag - g.credit check flag 


and a.new customer ind - g.new customer ind 


and a.web order flag = g.web order flag 


and 
a.entry date »- h.last load and 


a.entry date « h.current load ; 
-- guWBIiBERHJlast load Ff ... 


注意 ， 杂 项 属性 维度 数据 已 经 预 装 载 ， 所 以 在 定期 装载 脚本 中 只 
需要 修改 处 理事 实 表 的 部 分 。 源 数据 中 有 四 个 属性 列 ， 而 事实 表 中 只 
对 应 一 列 ， 因 此 需要 使 用 四 列 关 联 条 件 的 组 合 确定 杂项 维度 表 的 代理 
键 值 ， 并 装载 到 事实 表 中 ， 正 如 上 面 代码 中 粗 体 部 分 所 示 。 


4. 测试 修改 后 的 定期 装载 


(1) 使 用 下 面 的 脚本 添加 8 个 销售 订单。 


USe 


source; 
drop table if exists 


temp sales order data; 
create table 


temp sales order data as select * from 
sales order where 
1-0; 

set 


Qstart date := unix timestamp('2016-07-31'); 
set 


Qend date :- unix timestamp('2016-08-01'); 


Set 


Qorder date := from unixtime(Qstart date + rand ( ) 


* (Qend date - Qstart date)); 
set 


Qamount :- floor 
(1000 + rand() 


* 9900); 
set 


Qquantity :- floor 
(10 + rand() 


* 90); 
insert into 


temp sales order data 
values 


ed ily T VE A ue ne PER 
Qorder date, '2016-08-05', Qorder date, @amount, 


-- 一 共 添 加 各 种 属性 组 合 的 8 条 记录 
insert into 


sales order 
select 


null, 
customer number, 
product code, 
verification ind, 
credit check flag, 
new customer ind, 
web order flag, 
order date, 
request delivery date, 
entry date, 
order amount, 


Qquantity); 


order quantity 
from 


temp sales order data t1 
order by 


ti.order date; 
commit 


(2) 执行 定期 装载 。 
./regular etl.sh 


(3) 验证 结果 。 


可 以 使 用 下 面 的 分 析 性 查询 确认 装载 是 否 正确 。 该 查询 分 析出 检 
查 了 信用 状态 的 新 用 户 所 占 的 比例 。 


select concat(round 

(checked / (checked + not checked) * 100),' 96 ') 
from (select 

sum(case when 

credit check flag-'y' then 

1 else 

0 end 


) checked, 
sum(case when 


credit check flag-'n' then 
1 else 


© end 


) not_checked 
from 


dw.sales order fact a, dw.sales order attribute dim b 
where 


new customer ind - 'y' 
and 


a.sales order attribute sk - b.sales order attribute sk) t; 


sum(case when...) 是 SQL 中 一 种 常用 的 行 转 列 方法 ， 用 于 列 数 固定 
的 场景 。 在 我 们 的 测试 数据 中 ， 以 上 查询 语句 的 返回 值 为 75%。 注 
意 ， 查 询 中 销售 订单 事实 表 与 杂项 维度 表 使 用 的 是 内 连接 ， 因 此 只 会 
匹配 新 增 的 8 条 记录 ， 而 查询 结果 比例 的 分 母 只 能 出 自 这 8 条 记录 。 


10.7 ”维度 合并 


在 多 维 数据 仓库 建 模 时 ， 如 果 维 度 属性 中 的 两 个 组 存在 多 对 多 关 
系 时 ， 应 该 将 它们 建 模 为 不 同 的 维度 ， 并 在 事实 表 中 构建 针对 这 些 维 
度 的 不 同 外 键 。 另 一 种 处 理 多 对 多 关系 的 方法 是 ， 使 用 桥接 表 ， 将 一 
个 多 对 多 关系 转化 为 两 个 一 对 多 关系 。 我 们 在 10.4 节 中 讨论 的 展开 树 
也 是 一 种 典型 的 桥接 表 。 事 实 表 通 过 引用 桥接 表 的 一 个 代理 键 ， 同 时 
关联 到 多 个 维度 值 。 这 样 做 的 目的 是 消除 数据 宛 余 ， 保 证 数据 一 致 
性 。 多 对 多 关系 的 常见 示例 包括 : 每 个 学 生 登记 了 许多 课程 ， 每 个 课 
程 有 许多 学 生 ; 一 名 医生 有 许多 患者 ， 每 个 患者 有 许多 医生 ; 一 个 产 
品 或 服务 属于 多 个 类 别 ， 每 个 类 别 包含 多 个 产品 或 服务 等 。 从 结构 上 
来 说 ， 创 建 多 对 多 维度 关系 的 方式 类 似 于 在 关系 数据 模型 中 创建 多 对 
多 关系 。 

然而 ， 有 时 会 遇 到 一 些 情 况 ， 更 适合 将 两 个 维度 合并 到 单一 维度 
中 ， 而 不 是 在 事实 表 中 引用 两 个 不 同 维度 的 外 键 ， 或 使 用 桥接 表 。 例 
如 ， 在 一 个 飞行 服务 数据 分 析 系统 中 ， 业 务 用 户 希望 分 析 乘 客 购买 机 


票 的 服务 级 别 。 此 外 ， 用 户 还 希望 方便 地 按照 是 否 发 生 服务 的 升级 或 
降级 情况 过 滤 并 构建 报表 。 最 初 的 想法 可 能 是 建立 两 个 角色 扮演 维 
度 ， 一 个 表示 最 初 购买 的 机 票 服务 等 级 ， 另 外 一 个 表示 实际 乘机 时 的 
服务 级 别 。 可 能 还 希望 建立 第 三 个 维度 表示 升降 级 情况 ， 否 则 BI 应 用 
需要 包括 用 于 区 分 众多 升降 级 情况 的 逻辑 ， 例 如 经 济 舱 升级 到 商务 
舱 ， 经 济 舱 升 级 到 头等 舱 ， 商 务 舱 升 级 到 头等 舱 等 。 但 是 ， 面 对 这 个 
特殊 场景 ， 在 维度 表 中 只 有 用 于 区 分 头等 舱 、 商 务 舱 、 经 济 舱 的 三 行 
记录 。 同 样 ， 升 降级 标准 维度 表 也 仅 包含 三 行 ， 分 别 对 应 升级 、 降 
级 、 无 变化 。 因 为 维度 的 基数 太 小 ， 而 且 不 会 进行 更 新 ， 所 以 可 以 选 
择 将 这 些 维度 合并 成 单一 服务 级 别 变动 维度 ， 如 表 10-3 所 示 。 


表 10-3 ”服务 级 别 变动 维度 


机 票 升降 级 主键 
1 经 济 舱 经 济 舱 无 变化 

2 经 济 舱 HAAG 升级 

3 经 济 舱 头等 舱 升级 

4 商务 舱 经 济 舱 降级 

5 商务 舱 商务 舱 无 变化 

6 商务 舱 头等 舱 升级 

7 头等 舱 经 济 舱 降级 

8 头等 舱 商务 舱 降级 

9 头等 舱 头等 舱 无 变化 


不 同 维度 的 笛 卡 尔 积 将 产生 9 行 的 维度 表 。 在 合并 维度 中 还 可 以 包 
含 描述 购买 服务 级 别 和 乘坐 服务 级 别 之 间 的 关系 ， 例 如 表 中 的 服务 等 
级 变动 标识 。 应 该 将 此 类 服务 级 别 变动 维度 当成 杂项 维度 。 在 此 案例 
研究 中 ， 属 性 是 紧密 关联 的 。 其 他 的 航空 事实 表 ， 例 如 ， 有 效 座位 或 
机 票 购买 ， 不 可 避免 地 需要 引用 包含 3 行 的 一 致 性 机 票 等 级 维度 表 。 

还 有 一 种 合并 维度 的 情况 ， 就 是 本 来 属性 相同 的 维度 ， 因 为 某 种 
原因 被 设计 成 重复 的 维度 属性 。 例 如 ， 在 销售 订单 示例 中 ， 随 着 数据 
仓库 中 维度 的 增加 ， 我 们 会 发 现 有 些 通 用 的 数据 存在 于 多 个 维度 中 。 


例如 ， 客 户 维 度 的 客户 地 址 相关 信息 、 送 货 地 址 相关 信息 里 都 有 邮 
编 、 城 市 和 省 份 。 下 面 说 明 如 何 把 客户 维度 里 的 两 个 邮编 相关 信息 合 
并 到 一 个 新 的 维度 中 。 


1. 修改 数据 仓库 模式 


为 了 合并 维度 ， 需 要 改变 数据 仓库 模式 。 图 10-8 显 示 了 修改 后 的 
模式 。 新 增 了 一 个 zip_code_dim 邮 编 信息 维度 表 ，sales_order fact 事实 
表 的 结构 也 做 了 相应 的 修改 。 注 意图 中 只 显示 了 与 邮编 维度 相关 的 
表 。 

zip_code_dim 维 度 表 与 销售 订单 事实 表 相 关联 。 这 个 关系 替换 了 
事实 表 与 客户 维度 的 关系 。sales_order_fact 表 需要 两 个 关系 ， 一 个 关 
联 到 客户 地 址 邮编 ， 另 一 个 关联 到 送 货 地 址 邮编 ， 相 应 地 增加 了 两 个 
外 键 字段 。 再 次 强调 ， 这 里 所 说 的 外 键 是 逻辑 上 的 ，Hive 没 有 物理 外 
键 约束 。 


下 面 说 明 用 于 修改 数据 仓库 模式 的 脚本 。 


create table 
zip_code dim ( 
zip_code sk int 


zip code int 


city varchar 


(30), 
state varchar 


(2), 


version int 


effective date date 


expiry date date 


) 
clustered by 
(zip code sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


图 10-8 ”合并 邮编 信息 维度 


执行 上 面 的 语句 创建 邮编 维度 表 。 该 维度 表 有 邮编 、 城 市 、 省 份 
三 个 业务 属性 ， 和 其 他 维度 表 一 样 ， 使 用 ORC 存 储 类 型 。 


insert into 


zip code dim 
select row number() 


over (order by 
ti.zip code), 
customer zip. code, 
customer city, 
customer state, 
1,'1900-01-01','2200-01-01' 
from 
(select distinct 


customer zip code, customer city, customer state 
from 


customer dim 
where 


customer zip code is not null 
union 


select distinct 


shipping zip code, shipping city, shipping state 
from 


customer dim 
where 


shipping. zip code is not null 


) ti; 


执行 上 面 的 语句 初始 装载 邮编 相关 数据 。 初 始 数据 是 从 客户 维度 
表 中 来 的 ， 这 只 是 为 了 演示 数据 装载 的 过 程 。 客 户 的 邮编 信息 很 可 能 
覆盖 不 到 所 有 邮编 ， 所 以 更 好 的 方法 是 装载 一 个 完整 的 邮编 信息 表 。 
由 于 客户 地 址 和 送 货 地 址 可 能 存在 交叉 的 情况 ， 因 此 使 用 union 联 合 两 
个 查询 。 注 意 这 里 不 能 使 用 union al， 因 为 需要 去 除 重复 的 数据 。 送 货 


地 址 的 三 个 字段 是 在 10.1 节 后 加 的 ， 在 此 之 前 数据 的 送 货 地 址 为 空 ， 
邮编 维度 表 中 不 能 含有 NULL 值 ， 所 以 要 加 上 where shipping zip code 
is not null 过 滤 条 件 去 除 邮 编 信 息 为 NULL 的 数据 行 。 


create view 


customer zip code dim 
(customer zip code sk, customer zip code, customer city, 
customer state, version, effective date, expiry date) as 


select 


zip. code sk, zip code, city, state 


[4 
version, effective date, expiry date 
from 


zip code dim; 
create view 
shipping zip code dim 


(shipping zip code sk, shipping zip code, shipping city, 
shipping state, version, effective date, expiry date) as 


select 
zip code sk, zip code, city, state 


[4 
version, effective date, expiry date 
from 


zip. code dim; 


上 面 的 语句 基于 邮编 维度 表 创 建 客户 邮编 和 送 货 邮编 视图 ， 分 别 
用 作 两 个 地 理 信 息 的 角色 扮演 维度 。 


alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact( 
order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
customer zip code sk int comment 'customer zip code SK' 


shipping zip code sk int comment 'shipping zip code SK' 


product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity') 
clustered by 


(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


以 上 语句 先 将 销售 订单 表 改 名 以 保存 现 有 数据 ， 然 后 新 建 一 个 销 
售 订单 事实 表 ， 增 加 客户 邮编 代理 键 和 送 货 邮编 代理 键 ， 引 用 两 个 邮 
编 信息 角色 扮演 维度 。 


insert into 


sales order fact 
select 


ti.order number, 
ti.customer sk, 
t2.customer zip code sk 


t3.shipping zip code sk 


ti.product sk, 
ti1.sales order attribute sk, 
ti.order date sk, 
ti.request delivery date sk, 
ti.order amount, 
ti.order quantity 

from 


sales order fact old t1 
left join 

(select 

a.order number order number, 


c.customer zip code sk customer zip code sk 
from 


sales order fact old a, 
customer dim b, 
customer zip code dim c 

where 


a.customer sk - b.customer sk 
and 


b.customer zip code - c.customer zip code) t2 


on 
t1.order_number = t2.order_number 
left join 
(select 
a.order_number order_number, 


c.shipping zip code sk shipping zip code sk 
from 


sales order fact old a, 
customer dim b, 
shipping zip code dim c 


where 


a.customer sk = b.customer sk 
and 


b.shipping zip. code = c.shipping zip code) t3 
on 


ti.order number = t3.order number; 


上 面 这 条 语句 有 些 复杂 。 它 是 把 数据 备份 表 sales_order_fact_old 中 
的 数据 装 Seta ee 同时 需要 关联 两 个 邮编 角色 维度 视 
图 ， 查 询 出 两 个 代理 键 ， 装 载 到 事实 表 中 。 注 意 老 的 事实 表 与 新 的 邮 
编 维 度 表 是 通过 客户 维度 表 关 联 起 来 的 ， 所 以 在 子 查询 中 需要 三 表 连 
接 ， 然 后 用 两 个 左 外 连接 查询 出 所 有 原 事实 表 数 据 ， 装 载 到 新 的 增加 
了 邮编 维度 代理 键 的 事实 表 中 。 


alter table 
customer dim rename to 


customer dim old; 
create table 


customer dim 
(customer sk int comment 


1 Li 
SK', 
customer number int comment 


'number', 
customer name varchar 


(50) comment 


'name', 
customer street address varchar 


(50) comment 


'address', 
shipping. address varchar 


(50) comment 


'shipping address', 
version int comment 


'version', 
effective date date comment 


'effective date', 
expiry date date comment 


'expiry date') 
clustered by 


(customer sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'='true'); 
insert into 


customer dim 
select 


customer sk, 
customer number, 
customer name, 
customer street address, 
shipping. address, 
version, 
effective date, 


expiry date 
from 


customer dim old; 
drop table 


customer dim old; 


-- 修改 pa_customer_dim 表 ， 同 样 将 邮编 相关 字段 删除 


以 上 语句 在 客户 维度 表 上 删除 客户 和 送 货 邮编 及 其 他 们 的 城市 和 
省 份 列 ， 因 为 是 ORC 表 ， 所 以 需要 重新 组 织 效 据 。 使 用 类 似 的 语句 修 
改 PA 维 度 子 集 表 ， 代 码 从 略 。 


2. 修改 定期 装载 脚本 


定期 装载 脚本 有 三 个 地 方 的 修改 : 


(1) 删除 客户 维度 装载 里 所 有 邮编 信息 相关 的 列 ， 因 为 客户 维度 
里 不 再 有 客户 邮编 和 送 货 邮编 相关 信息 。 


(2) 在 事实 表 中 引用 客户 邮编 视图 和 送 货 邮编 视图 中 的 代理 键 。 


(3) 修改 pa_customer_dim 装 载 ， 因 为 需要 从 销售 订单 事实 表 的 
customer_zip_code_sk 获 取 客 户 邮 编 。 


修改 后 的 regular_etl.sql 脚 本 如 下 所 示 (只 列 出 修改 的 部 分 ) o 
- 设置 环境 与 时 间 窗 口 ,,， 
- - 装载 customer 维 度 
只 需要 注意 去 掉 邮 编 信 息 的 6 个 字段 ， 别 的 逻辑 没 变 
- 装载 product 维 度 ... 


-- 装载 销售 订单 事实 表 
- 前 一 天 新 增 的 销售 订单 


insert into 


sales order fact 


select 
a.order number, 
c.customer sk, 
i.customer zip code sk, 
j.shipping zip code sk, 
d.product sk, 
g.sales order attribute sk, 
e.order date sk, 
f.request delivery date sk, 


order amount, 
order quantity 
from 


rds.sales order a, 
customer dim c, 

product dim d, 

order date dim e, 

request delivery date dim f, 
sales order attribute dim g, 
customer zip code dim i 


shipping zip code dim j 


rds.customer k 
rds.cdc time 1 
where 


a.customer number - c.customer number 
and 


a.order date »- c.effective date 
and 


a.order date « c.expiry date 
and a.customer number - k.customer number 


and k.customer zip code - i.customer zip code 


and a.order date >= i.effective date 


and a.order date «- i.expiry date 


and k.shipping zip code - j.shipping zip code 


and a.order date »- j.effective date 


and a.order date «- j.expiry date 


and 


a.product code - d.product code 
and 


a.order date »- d.effective date 
and 


a.order date « d.expiry date 
and to date 


(a.order date) - e.order date 
and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date < l.current load ; 


- By pa 客户 维度 


truncate table 


pa customer dim; 
insert into 


pa customer dim 
select distinct 


a * 
from 


customer dim a, 


sales order fact b 


customer zip code dim c 
where 


Cc.customer state = 'pa' 
an 


b.customer zip code sk - c.customer zip code sk 
and 


a.customer sk - b.customer sk; 


- 更 新 时 间 惟 表 的 last_1oad 字 段 


上 面 的 脚本 需要 注意 两 个 地 方 。 装 载 事 实 表 数据 时 ， 除 了 关联 两 
i i TT 

得 邮编 维度 代理 键 ， 必 须 连接 邮编 代码 字段 ， 而 邮编 代码 已 经 从 客户 
ARAM, 5 只 有 在 源 数 据 的 窗户 表 中 保留 第 二 个 改变 是 PA 子 维 
EIR 站 载 。 州 代码 已 经 从 客户 维度 表 删除 ， 被 放 到 了 新 的 邮编 维度 下 
中 ， 而 客户 维度 和 邮编 维度 并 没有 直接 关系 ， 它 们 是 通过 事实 表 的 客 
户 代理 键 和 邮编 代理 键 产生 联系 的 ， 因 此 必须 关联 事实 表 、 客 户 维度 
表 、 邮 编 维 度 表 三 个 表 才 能 取出 PA 子 维度 数据 。 这 也 就 是 把 PA 子 维度 
的 装载 放 到 了 事实 表 法 载 之 后 的 原因 。 


3. 测试 修改 后 的 定期 装载 


按照 以 下 步骤 测试 修改 后 的 定期 装载 脚本 。 

(1) 对 源 数据 的 客户 邮编 相关 信息 做 一 些 修改 。 

(2) 装载 新 的 客户 数据 前 ， 从 DW 库 查询 最 后 的 客户 和 送 货 邮 
编 ， 后 面 可 以 用 改变 后 的 信息 和 此 查询 的 输出 作对 比 。 

(3) 新 增 销售 订单 源 数 据 。 

(4) 修改 定期 装载 执行 的 时 间 窗 口 。 

(5) 执行 定期 装载 。 

(6) 查询 客户 维度 表 、 销 售 订单 事实 表 和 PA 子 维度 表 ， 确 认 数 
据 已 经 正确 装载 。 


108 ”分 段 维度 


在 客户 维度 中 ， 最 具有 分 析 价 值 的 属性 就 是 各 种 分 类 ， 这 些 属 性 
的 变化 范围 比较 大 。 对 某 个 个 体 客 户 来 说 ， 可 能 的 分 类 属性 包括 : 性 
别 、 年 龄 、 民 族 、 职 业 、 收 入 和 状态 ， 例 如 ， 新 客户 、 活 跃 客户 、 不 
活跃 客户 、 已 流失 客户 等 。 在 这 些 分 类 属性 中 ， 有 一 些 能 够 定义 成 包 
含 连续 值 的 分 段 ， 例 如 年 龄 和 收入 这 种 数值 型 的 属性 ， 就 可 以 分 成 连 
续 的 数值 区 间 ， 而 像 状态 这 种 描述 性 的 属性 ， 可 能 需要 用 户 根据 自己 
的 实际 业务 仔细 定义 ， 通 常 定 义 的 根据 是 某 种 可 度量 的 数值 。 

组 织 还 可 能 使 用 为 其 客户 打分 的 方法 刻画 客户 行为 。 分 段 维 度 模 
型 通常 以 不 同方 式 按照 积分 将 客户 分 类 ， 例 如 ， 基 于 他 们 的 购买 行 
为 、 支 付 行为 、 流 失 走 向 等 。 每 个 客户 用 所 得 的 分 数 标记 。 

一 个 常用 的 客户 评分 及 分 析 系 统 是 考察 客户 行为 的 相关 度 
(R) 、 频 度 (F) 和 强度 (D) ， 该 方法 被 称 为 RFI 方 法 。 有 了 时 将 强度 


替换 为 消费 度 (M) ， 因 此 也 被 称 为 RFM 度 量 。 相 关 度 是 指 客户 上 次 
购买 或 访问 网 站 距 现在 的 天 数 。 频 繁 度 是 指 一 段 时 间 内 容 户 购买 或 访 
问 网 站 的 次 数 ， 通 常 是 指 过 去 一 年 的 情况 。 强 度 是 指 客户 在 某 一 固定 
时 间 周 期 中 消费 的 总 金额 。 在 处 理 大 型 客户 数据 时 ， 某 个 客户 的 行为 
可 以 按照 如 图 10-9 所 示 的 RFI 多 维 数据 仓库 建 模 。 在 此 图 中 ， 每 个 维度 
形成 一 条 数 轴 ， 某 个 轴 的 积分 度量 值 从 15， 代 表 某 个 分 组 的 实际 
值 ， 三 条 数 轴 组 合 构 成 客户 积分 立方 体 ， 每 个 客户 的 积分 都 在 这 个 立 
方 体 之 中 。 
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定义 有 意义 的 分 组 至 关 重 要 。 应 该 由 业务 人 员 和 数据 仓库 开发 团 
队 共 同 定义 可 能 会 利用 的 行为 标识 ， 更 复杂 的 场景 可 能 包含 信用 行为 
和 回报 情况 ， 例 如 定义 如 下 8 个 客户 标识 : 


: 活跃 客户 ， 信 誉 恨 好 ， 产 品 回报 多 。 
: 活跃 客户 ， 信 誉 及 好 ， 产 品 回报 一 般 。 
: 最 近 的 新 客户 ， 尚 未 建立 信誉 等 级 。 
: 偶尔 出 现 的 客户 ， 信 誉 良好 。 

: 偶尔 出 现 的 客户 ， 信 誉 不 好 。 


E LJ C) Uu 


°F: 以 前 的 优秀 客户 ， 最 近 不 常见 。 

© G) 只 得 不 买 的 客户 ， 几 乎 没有 效益 。 

。 H: 其 他 客户 。 

至 此 可 以 考察 客户 时 间 序 列 数 据 ， 并 将 某 个 客户 关联 到 报表 期 间 
的 最 近 分 类 中 。 例 如 ， 某 个 客户 在 最 近 10 个 考察 期 间 的 情况 可 以 表示 
为 : CCCDDAAABB。 这 一 行为 时 间 序 列 标记 来 自 于 固定 周期 度量 过 
程 ， 观 察 值 是 文本 类 型 的 ， 不 能 计算 或 求 平 均值 ， 但 是 它们 可 以 被 查 
询 。 例 如 ， 可 以 发 现在 以 前 的 第 5 个 、 第 4 个 或 第 3 个 周期 中 获得 A 且 在 
第 2 个 或 第 1 个 周期 中 获得 B 的 所 有 客户 。 通 过 这 样 的 进展 分 析 还 可 以 
发 现 那 些 可 能 失去 的 有 价值 的 客户 ， 进 而 用 于 提高 产品 回报 率 。 

行为 标记 可 能 不 会 被 当成 普通 事实 存储 ， 因 为 它 虽 然 由 事实 表 的 
度量 所 定义 ， 但 其 本 身 不 是 度量 值 。 行 为 标记 的 主要 作用 在 于 为 前 面 
首 述 的 例子 制定 复杂 的 查询 模式 。 推 荐 的 处 理 行为 标记 的 方法 是 为 客 
户 维 度 建立 分 段 属性 的 时 间 序 列 。 这 样 BI 接口 比较 简单 ， 因 为 列 都 在 
同一 个 表 中 ， 人 性 能 也 较 好 ， 因 此 可 以 对 它们 建立 时 间 戳 索引。 除了 为 
每 个 行为 标记 时 间 周 期 建立 不 同 的 列 ， 建 立 单一 的 包含 多 个 连续 行为 
标记 的 连接 字符 串 ， 也 是 较 好 的 一 种 方法 ， 例 如 ，CCCDDAAABPB。 
该 列 支 持 通 配 符 模糊 搜索 模式 ， 例 如 ，“D 后 紧 跟 着 B” 可 以 简单 实现 为 
“where flag like '%DB%"”o 


下 面 以 销售 订单 为 例 ， 说 明 分 段 维度 的 实现 技术 。 分 段 维度 包含 
连续 的 分 段 度量 值 。 例 如 ， 年 度 销售 订单 分 段 维度 可 能 包含 有 叫做 
“ 低 *“ 中 “高 * 的 三 个 档次 ， 各 档 定义 分 别 为 消费 额 在 0.01 到 3000、 
3000.01 到 6000.00、6000.01 到 99999999.99 区 间 。 如 果 一 个 客户 的 年 度 
销售 订单 金额 累计 为 1000， 则 被 归 为 “ 低 ” 档 。 分 段 维度 可 以 存储 多 个 
分 段 集合 。 例 如 ， 可 能 有 一 个 用 于 促销 分 析 的 分 段 集合 ， 另 一 个 用 于 
市 场 细 分 ， 可 能 还 有 一 个 用 于 销售 区 域 计划 。 分 段 一 般 由 用 户 定义 ， 
而 且 很 少 能 从 源 事务 数据 直接 获得 。 


1. 年 度 销 售 订单 星 型 模式 


为 了 实现 年 度 订 单 分 段 维度 ， 我 们 需要 两 个 新 的 星 型 模式 ， 如 图 
10-10 所 示 。 


customer dim annual order segment dim 
customer sk «pi» «M ; segment sk «pi» «M2 
customer number segment name 
customer name band name 
customer street address ^, |band start amount 
shipping address ~ ~ | band end amount 
version version 
effective date effective date 
expiry date expiry date 

X X X 

O< annual sales order fact /| annual customer segment fact 

customer sk <fil> segment sk <fib 
year sk <fi2> customer sk <fi2> 
annual order amount year sk <fi3> 


图 10-10 年度 销售 额 分 段 维度 


一 个 星 型 模式 由 annual_sales_order_fact 事 实 表 、customer_dim 维 
ples dim 维 度 表 构成 。 年 维度 是 新 建 的 维度 表 ， 是 日 期 维度 的 
。 年 度 销售 额 事 实 表 存 储 客户 一 年 的 消费 总 额 ， 数 据 从 现 有 的 销 
i ny 第 二 个 星 型 模式 由 
annual_customer_segment_fact 事 实 表 、annual_order_segement_dim 维 度 
X customer dim 维度 表 和 year_dim 维 度 表 构成 。 客 户 年 度 eid 
中 没有 度量 ， 只 有 来 自 三 个 相关 维度 表 的 代理 键 ， 因 此 它 是 一 个 无 事 
实 的 事实 表 ， 存 储 的 数据 实际 上 就 是 前 面 所 说 的 行为 标记 时 间 序 列 。 
11.4 节 将 详细 讨论 无 事实 的 事实 表 技 术 。 年 度 订 单 分 段 维度 表 用 于 存 
储 分 段 的 定义 ， 在 本 例 中 ， 它 只 与 年 度 分 段 事实 表 有 关系 。 
如 果 多 个 分 段 的 属性 相同 ， 可 以 将 它们 存储 到 单一 维度 表 中 ， 因 
为 分 段 通常 都 有 很 小 的 基数 。 本 例 中 annual_order_segment_dim 表 存储 
了 “project* 和 “grid” 两 种 分 段 集合 ， 它 们 都 是 按照 客户 的 年 度 销售 订单 


金额 将 其 分 类 。 分 段 维度 按 消费 金额 的 定义 如 表 10-4 所 示 ，project 分 
rÉ , grid 三 段 o 


表 10-4 客户 年 度 消费 分 段 维 度 定 义 


分 段 类 别 REAR 开始 值 结束 值 
Project bottom 0.01 2500.00 
Project low 2500.01 3000.00 
Project mid-low 3000.01 4000.00 
Project mid 4000.00 5500.00 


Project mid-high 5500.01 6500.00 
Project 6500.01 99999999,99 
Grid 0.01 3000.00 


Grid 3000.01 6000.00 


Grid 6000.01 9999999999 


每 一 分 段 有 一 个 开始 值 和 一 个 结束 值 。 分 段 的 粒度 就 是 本 段 和 下 
段 之 间 的 间隙 。 粒 度 必 须 是 度量 的 最 小 可 能 值 ， 在 销售 订单 示例 中 ， 
金额 的 最 小 值 是 0.01。 最 后 一 个 分 段 的 结束 值 是 销售 订单 金额 可 能 的 
最 大 值 。 下 面 的 脚本 用 于 建立 分 段 维度 数据 仓库 模式 。 


USe 


dw; 
create table 


annual order segment dim ( 
segment sk int 


segment name varchar 


(30), 
band name varchar 


(50), 
band start amount decimal 


(10,2), 
band end amount decimal 


(10,2), 
version int 


effective date date 


expiry date date 


) 
clustered by 
(segment sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


annual order segment dim 
values 


(1, 'project', 'bottom', 0.01, 2500.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(2, 'project', 'low', 2500.01, 3000.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(3, 'project', 'mid-low', 3000.01, 4000.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(4, 'project', 'mid', 4000.01, 5500.00, 


1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(5, 'project', 'mid high', 5500.01, 6500.00, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(6, 'project', 'top', 6500.01, 99999999.99, 
1, ' 1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(7, 'grid', 'low', 0.01, 3000, 
1, '1900-01-01', '2200-01-01'); 
insert into 


annual_order_segment_dim 
values 


(8, 'grid', 'med', 3000.01, 6000.00, 
1, ' 1900-01-01', '2200-01-01'); 
insert into 


annual order segment dim 
values 


(9, 'grid', 'high', 6000.01, 99999999.99, 
1, '1900-01-01', '2200-01-01'); 


create table 
year_dim ( 
year_sk int 


year int 


); 


create table 
annual sales order fact ( 
customer sk int 


year sk int 


annual order amount decimal 
(10, 2) 
); 
create table 
annual customer segment fact ( 
segment sk int 


customer sk int 


year sk int 


上 面 的 语句 新 建 四 个 表 ， 包 括 年 份 维度 表 、 分 段 维度 表 、 年 度 销 
售 事实 表 和 年 度 客户 消费 分 段 事实 表 。 在 这 四 个 表 中 ， 只 有 分 段 维度 
表 采 用 ORC 文 件 格 式 ， 因 此 使 用 insert into...values 向 该 表 语 句 插 入 9 条 
分 段 定 义 数 据 ， 并 且 该 表 需 要 SCD 处 理 。 其 他 三 个 表 没 有 行 级 更 新 的 
需求 ， 所 以 使 用 Hive 默 认 的 文本 文件 格式 。 


2。 初 始 装载 


执行 下 面 的 脚本 初始 滚 载 分 段 相 关 数 据 。 


dw; 


insert into 


year dim 
select row number() 


over (order by 
ti.year 


), year 


from 

(select distinct year year from 
order date dim) t1; 
insert into 


annual sales order fact 
select 


a.customer sk, 
year sk, 
sum 


(order amount) 
from 


sales order fact a, 
year dim c, 
order date dim d 
where 


a.order date sk - d.order date sk 
and 


c.year 


d.year 


and 


d.year 


< 2017 
group by 


a.customer sk, c.year sk; 
insert into 


annual customer segment fact 
select 


d.segment sk, 
a.customer sk, 
a.year sk 
from 


annual sales order fact a, 
annual order segment dim d 
where 


annual order amount »- band start amount 
and 


annual order amount «- band end amount; 


初始 装载 脚本 将 订单 日 期 角色 扮演 维度 表 (date_dim 表 的 一 个 视 
EJ) 里 的 去 重 年 份 数 据 导 入 年 份 维 度 表 ， 将 销售 订单 事实 表 中 按 年 客 
户 和 分 组 求 和 的 汇总 金额 数据 导入 年 度 销售 事实 表 。 因 为 装载 过 程 不 
能 导入 当年 的 数据 ， 所 以 使 用 year < 2017 过 滤 条 件 作 为 演示 。 这 里 是 
按 客户 代理 键 customer_sk 分 组 求 和 来 判断 分 段 ， 实 际 情况 可 能 是 以 
customer_number 进 行 分 组 的 ， 因 为 无 论 客户 的 SCD 属 性 如 何 变化 ,一 
般 还 是 认为 是 一 个 客户 。 将 年 度 销售 事实 表 与 分 段 维度 表 关 联 ， 把 年 
份 、 客 户 和 分 段 三 个 维度 的 代理 键 插入 年 度 客户 消费 分 段 事实 表 。 注 
意 ， 数 据 装 载 过 程 中 并 没有 引用 客户 维度 表 ， 因 为 客户 代理 键 可 以 直 
接 从 销售 订单 事实 表 得 到 。 分 段 定义 中 ， 每 个 分 段 结束 值 与 下 一 分 段 
的 开始 值 是 连续 的 ， 并 且 分 段 之 间 不 存在 数据 重 苔 ， 所 以 装载 分 段 事 
实 表 时 ， 订 单 金额 判断 条 件 两 端 都 使 用 闭 区 间 。 


执行 初始 装载 脚本 后 ， 使 用 下 面 的 语句 查询 客户 分 段 事实 表 ， 确 
认 雪 载 的 数据 是 正确 的 。 


select 


a.customer sk csk, 
a.year sk ysk, 
annual order amount amt, 
segment name sn, 
band name bn 
from 


annual customer segment fact a, 
annual order segment dim b, 
year dim c, 
annual sales order fact d 
where 


a.segment sk - b.segment sk 
and 


a.year sk - c.year sk 
and 


a.customer sk - d.customer sk 
and 


a.year sk - d.year sk 
cluster by 


csk, ysk, sn, bn; 


3。 定 期 装载 


除了 无 须 装载 年 份 表 以 外 ， 定 期 装载 与 初始 装载 类 似 。 年 度 销售 
事实 表 里 的 数据 被 导入 分 段 事实 表 。 每 年 调度 执行 下 面 的 定期 装载 脚 
本 ， 此 脚本 法 载 前 一 年 的 销售 数据 。 


use 
dw; 
insert into 


annual sales order fact 


select 


a.customer sk, 
year sk, 
sum 


(order amount) 
from 


sales order fact a, 
year dim c, 
order date dim d 
where 


a.order date sk - d.order date sk 
and 


c.year 


d.year 


and 


d.year 


year(current_date) - 1 


group by 
a.customer_sk, c.year_sk; 
insert into 


annual_customer_segment_fact 
select 


d.segment_sk, 
a.customer_sk, 
c.year_sk 
from 


annual_sales_order_fact a, 
year_dim c, 
annual_order_segment_dim d 

where 


a.year sk = c.year sk 
and c.year - year(current date) - 1 


and 


annual order amount »- band start amount 
and 


annual order amount «- band end amount; 


10.9 ”小 结 


(1) 给 ORC 存 储 格式 的 表 增加 列 时 ， 不 能 直接 使 用 alter table 语 
句 ， 只 有 通过 新 建 表 并 重新 组 织 数据 的 方式 才能 正常 执行 。 


(2) 修改 数据 仓库 模式 时 ， 要 注意 空 值 的 处 理 ， 必 要 时 使 用 <=> 
符号 代替 等 号 。 

(3) 子 维度 通常 有 包含 属性 子 集 的 子 维度 和 包含 行 子 集 的 子 维度 
两 种 。 常 用 视图 实现 子 维度 。 


(4) 单个 物理 维度 可 以 被 事实 表 多 次 引用 ， 每 个 引用 连接 逻辑 上 
存在 差异 的 角色 扮演 维度 。 视 图 和 表 别 名 是 实现 角色 扮演 维度 的 两 种 
常用 方法 。 

(5) 处 理 层 次 维度 时 ， 经常 使 用 grouping id. rollup, 
collect set, concat ws 等 国 数 。Hive 也 可 以 处 理 递归 树 的 平面 化 、 树 的 
展开 、 弟 归 查 询 等 问题 。 

(6) 除了 业务 主键 外 没有 其 他 内 容 的 维度 表 通 常 是 退化 维度 。 将 
业务 主键 作为 一 个 属性 加 入 到 事实 表 中 是 处 理 退化 维度 的 适当 方式 。 

(7) 杂项 维度 就 是 一 种 包含 的 数据 具有 很 少 可 能 值 的 维度 。 有 时 
与 其 为 每 个 标志 或 属性 定义 不 同 的 维度 ， 不 如 建立 单独 的 将 不 同 维度 
合并 到 一 起 的 杂项 维度 。 


(8) 如 果 几 个 相关 维度 的 基数 都 很 小 ， 或 者 具有 多 个 公共 属性 
时 ， 可 以 考虑 将 它们 进行 维度 合并 。 

(9) 分 段 维度 的 定义 中 包含 连续 的 分 段 度量 值 ， 通 常用 作客 户 维 
度 的 行为 标记 时 间 序 列 ， 分 析 客 户 行为 。 


第 11 章 
< 事实 表 技 术 > 


上 一 章 里 介绍 了 几 种 基本 的 维度 表 技术 ， 并 用 示例 演示 了 每 种 技 
术 的 实现 过 程 。 本 章 说 明 多 维 数据 仓库 中 常见 的 事实 表 技 术 。 


下 面 将 讲述 5 种 基本 事实 表 扩 展 技术 ， 分 别 是 周期 快照 、 累 积 快 
照 、 无 事实 的 事实 表 、 述 到 的 事实 和 累积 度量 。 和 讨论 维度 表 技 术 一 
样 ， 也 会 从 概念 开始 认识 这 些 技 术 ， 继 而 给 出 常见 的 使 用 场景 ， 最 后 
以 销售 订单 数据 仓库 为 例 ， 给 出 实现 代码 和 测试 过 程 。 实 现 中 会 修改 
数据 仓库 模式 和 相关 ETL 脚 本 。 


11.1 事实 表 概 述 


发 生 在 业务 系统 中 的 操作 型 事务 ， 其 所 产生 的 可 度量 数值 ， 存 储 
在 事实 表 中 ， 从 最 细节 粒度 级 别 看 ， 事 实 表 和 操作 型 事务 表 的 数据 有 
一 一 对 应 的 关系 。 因 此 ， 数 据 仓库 中 事实 表 的 设计 应 该 依赖 于 业务 系 
统 ， 而 不 受 可 能 产生 的 最 终 报表 影响 。 除 数字 类 型 的 度量 外 ， 事 实 表 
总 是 包含 所 引用 维度 表 的 外 键 ， 也 能 包含 可 选 的 退化 维度 键 或 时 间 
戳 。 数 据 分 析 的 实质 就 是 基于 事实 表 开 展 计算 和 聚合 操作 。 


事实 表 中 的 数字 度量 值 可 划分 为 可 加 、 半 可 加 、 不 可 加 三 类 。 可 
加 性 度量 可 以 按照 与 事实 表 关 联 的 任意 维度 汇总 ， 就 是 说 按 任何 维度 
汇总 得 到 的 度量 和 是 相同 的 ， 事 实 表 中 的 大 部 分 度量 属于 此 类 。 半 可 
加 度量 可 以 对 某 些 维度 汇总 ， 但 不 能 对 所 有 维度 汇总 。 余 额 是 常见 的 
半 可 加 度量 ， 除 了 时 间 维 度 外 ， 它 们 可 以 跨 所 有 维度 进行 加 法 操作 。 
另外 ， 还 有 些 度量 是 完全 不 可 加 的 ， 例 如 比例 。 对 不 可 加 度量 ， 较 好 


的 处 理 方 法 是 尽 可 能 存储 构成 不 可 加 度量 的 可 加 分 量 ， 如 构成 比例 的 
分 子 和 分 母 ， 并 将 这 些 分 量 汇总 到 最 终 的 结果 集合 中 ， 而 对 不 可 加 度 
量 的 计算 通常 发 生 在 BI 层 或 OLAP 层 。 


事实 表 中 可 以 存在 空 值 度 量 。 所 有 聚合 国 数 ， 如 sum、 count, 
min、max、avg 等 均 可 针对 空 值 度量 计算 ， 其 中 sum、count( 字 段 名 )、 
min、max、avg 会 忽略 空 值 ， 而 count(1) 或 count(*) 在 计数 时 会 将 空 值 包 
含 在 内 。 然 而 ， 事 实 表 中 的 外 键 不 能 存在 空 值 ， 否 则 会 导致 违反 参照 
完整 性 的 情况 发 生 。 关 联 的 维度 表 必 须 用 默认 代理 键 而 不 是 空 值 表示 
未 知 的 条 件 。 


很 多 情况 下 数据 仓库 需要 装载 如 下 三 种 不 同类 型 的 事实 表 。 


11.2 


事务 事实 表 : 以 每 个 事务 或 事件 为 单位 ， 例 如 一 个 销售 订单 记 
录 、 一 笔 转账 记录 等 ， 作 为 事实 表 里 的 一 行 数据 。 这 类 事实 表 
可 能 包含 精确 的 时 间 惟 和 退化 维度 键 ， 其 度量 值 必 须 与 事务 粒 
度 保 持 一 致 。 销 售 订 单数 据 仓 库 中 的 sales_order_fact 表 就 是 事 
务 事实 表 。 

周期 快照 事实 表 : 这 种 事实 表 里 并 不 保存 全 部 数据 ， 只 保存 固 
定时 间 间 隔 的 数据 ， 例 如 每 天 或 每 月 的 销售 额 ， 或 每 月 的 账户 
余额 等 。 

累积 快照 事实 表 : 累积 快照 用 于 跟踪 事实 表 的 变化 。 例 如 ， 数 
据 仓 库 可 能 需要 累积 或 存储 销售 订单 从 下 订单 的 时 间 开 始 ， 到 
订单 中 的 商品 被 打包 、 运 输 和 到 达 的 各 阶段 的 时 间 点 数据 来 跟 
踪 订 单 生命 周期 的 进展 情况 。 当 这 个 过 程 进行 时 ， 随 着 以 上 各 
种 时 间 的 出 现 ， 事 实 表 里 的 记录 也 要 不 断 更 新 。 


周期 快照 


周期 快照 事实 表 中 的 每 行 汇 总 了 发 生 在 某 一 标准 周期 ， 如 一 天 、 
一 周 或 一 月 的 多 个 度量 。 其 粒度 是 周期 性 的 时 间 段 ， 而 不 是 单个 事 
务 。 周 期 快照 事实 表 通 常 包含 许多 数据 的 总 计 ， 因 为 任何 与 事实 表 时 
间 范 围 一 致 的 记录 都 会 被 包含 在 内 。 在 这 些 事实 表 中 ， 外 键 的 密度 是 
均匀 的 ， 因 为 即使 周期 内 没有 活动 发 生 ， 通 音 也 会 在 事实 表 中 为 每 个 
维度 插入 包含 0 或 空 值 的 行 。 


周期 快照 在 库存 管理 和 人 力 资源 系统 中 有 比较 广泛 的 应 用 。 商 店 
的 库存 优化 水 平 对 连锁 企业 的 获 利 将 产生 巨大 影响 。 需 要 确保 正确 的 
产品 处 于 正确 的 商店 中 ， 在 正确 的 时 间 尽 量 减少 出 现 脱 销 的 情况 ， 并 
减少 总 的 库存 管理 费用 。 零 售 商 希 望 通过 产品 和 商店 分 析 每 天 保有 商 
品 的 库存 水 平 。 在 这 个 场景 下 ， 我 们 希望 分 析 的 业务 过 程 是 零售 商店 
库存 的 每 日 周期 快照 。 在 人 力 资源 管理 系统 中 ， 除 了 为 员工 建立 档案 
外 ， 还 希望 获得 员工 状态 的 例 行 报告 ， 包 括 员工 数量 、 支 付 的 工资 、 
假期 天 数 、 新 增 员 工 数 量 、 离 职员 工 数 量 ， 晋 升 人 员 数 量 等 。 这 时 需 
要 建立 一 个 每 月 员工 统计 周期 快照 。 

周期 快照 是 在 一 个 给 定 的 时 间 对 事实 表 进 行 一 段 时 期 的 总 计 。 有 
些 数 据 仓库 用 户 ， 尤 其 是 业务 管理 者 或 者 运营 部 门 ， 经 常 要 看 某 个 特 
定时 间 点 的 汇总 数据 。 下 面 在 示例 数据 仓库 中 创建 一 个 月 销售 订单 周 
期 快照 ， 用 于 按 产 品 统计 每 个 月 总 的 销售 订单 金额 和 产品 销售 数量 。 


1. 修改 数据 仓库 模式 
需求 是 要 按 产品 统计 每 个 月 的 销售 金额 和 销售 数量 。 单 从 功能 上 


看 ， 此 数据 能 够 从 事务 事实 表 中 直接 查询 得 到 。 例 如 ， 要 取得 2016 年 7 
月 的 销售 数据 ， 可 以 使 用 以 下 的 语句 查询 : 


select 


b.month sk, a.product sk, sum 


(order amount), sum 


(order quantity) 
from 


sales order fact a, 
month dim b, 
order date dim d 
where 


a.order date sk - d.order date sk 
and 


b.month 


= d.month 


and 
b. year 


= d.year 


and 
b. year 


= 2016 
group by 


b.month_sk, a.product_sk ; 


只 要 将 年 、 月 参数 传递 给 这 条 查询 语句 ， 就 可 以 获得 任何 年 月 的 
统计 数据 。 但 即便 是 在 如 此 简单 的 场景 下 ， 我 们 仍然 需要 建立 独立 的 
周期 快照 事实 表 。 事 务 事实 表 的 数据 量 都 会 很 大 ， 如 果 每 当 需 要 月 销 
售 统计 数据 时 ， 都 从 最 细 粒 度 的 事实 表 查 询 ， 那 么 性 能 将 会 差 到 不 二 


忍受 的 程度 。 再 者 ， 月 统计 数据 往往 只 是 下 一 步 数 据 分 析 的 输入 信 
息 ， 有 时 把 更 复杂 的 逻辑 放 到 一 个 单一 的 查询 语句 中 效率 会 更 差 。 
此 ， 好 的 做 法 是 将 事务 型 事实 表 作 为 一 个 基石 事实 数据 ， 以 此 为 基 
础 ， 向 上 逐 层 建立 需要 的 快照 事实 表 。 图 11-1 中 的 模式 显示 了 一 个 名 
为 month_end_sales_order_fact 的 周期 快照 事实 表 。 


month end sales order fact 
oduct Spi, fil? GD 
order month sk Spi, fi2> «M» 
month order amount 
month order quantity 
product dim 
product sk «pi» «M» month dim 
product code month sk pi» «M» 
product name month 
product category month name 
version campaign session 
effective date quarter 
expiry date year 


图 11-1 月 销售 统计 周期 快照 事实 表 


新 的 周期 快照 事实 表 中 有 两 个 度量 值 ， 即 month_order_amount 和 
month_order_quantity。 这 两 个 值 是 不 能 加 到 sales_order_fact 表 中 的 ， 原 
因 是 ，sales_order_fact 表 和 新 的 度量 值 有 不 同 的 时 间 属 性 ， 也 即 数据 
的 粒度 不 同 。 sales_order_fact 表 包含 的 是 单一 事务 记录 。 新 的 度量 值 
包含 的 是 每 月 的 汇总 数据 。 销 售 周期 快照 是 一 个 普通 的 引用 两 个 维度 
的 事实 表 。 月 份 维度 表 包含 以 月 为 粒度 的 销售 周期 描述 符 。 产 品 代理 
键 对 应 有 效 的 产品 维度 行 ， 也 就 是 给 定 报告 月 的 最 后 一 天 对 应 的 产品 
代理 键 ， 以 保证 月 末 报 表 是 对 当前 产品 信息 的 准确 描述 。 快 照 中 的 事 
实 包 含 每 月 的 数字 度量 和 计数 ， 它 们 是 可 加 的 。 该 快照 事实 表 使 用 
ORC 存 储 格式 。 使 用 


下 面 的 脚本 建立 month_end_sales_order_fact 表 。 


USe 


dw; 
create table 


month end sales order fact ( 
order month sk int comment 


'order month SK', 
product sk int comment 


'product SK', 
month order amount decimal 


(10,2) comment 


'month order amount', 
month order quantity int comment 


'month order quantity' 
) 
clustered by 

(order month sk) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 


2. 编写 快照 表 数 据 装载 脚本 


££ V month end sales order fact 表 后 ， 现 在 需要 向 表 中 装载 数 
据 。 实 际 装载 时 ， 月 销售 周期 快照 事实 表 的 数据 产 是 已 有 的 销售 订单 
事务 事实 表 ， 而 并 没有 关联 产品 维度 表 。 之 所 以 可 以 这 样 做 ， 是 因为 
总 是 先 处 理事 务 事实 表 ， 再 处 理 周期 快照 事实 表 ， 并 且 事 务 事 实 表 中 
的 产品 代理 键 就 是 当时 有 效 的 产品 描述 。 这 样 做 还 有 一 个 好 处 是 ， 不 
必要 非 在 1 号 装载 上 月 的 数据 ， 这 点 在 后 面 修改 工作 流 时 会 详细 说 明 。 


month_sum.sql 脚 本 文件 用 于 装载 月 销售 订单 周期 快照 事实 表 ， 该 文件 
内 容 如 下 。 


- - 设置 变量 以 支持 事务 
set 


hive.support.concurrency-true 


/ 

set 
hive.exec.dynamic.partition.mode 

-nonstrict; 


set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanag 
er; 
set 


hive.compactor.initiator.on-true 


/ 

set 
hive.compactor.worker.threads-1; 

use 


dw; 


-- 上 月 某 日 期 
set 


hivevar:pre month date = add months(current date 


pedo) 
- -_ 需 等 操作 ， 先 删除 上 月 数据 


delete from 


month end sales order fact 
where 


month end sales order fact.order month sk in 


(select 


month sk 
from 


month dim 
where month 


= month 


($(hivevar:pre month date?) 
and year 


- year 


($(hivevar:pre month date))); 


-- 插入 上 月 销售 汇总 数据 


insert into 


month end sales order fact 
select 


b.month sk, 
nvl 


(a.product sk, 'N/A'), 
sum 


(order amount), 
sum 


(order quantity) 
from 


order date dim d 
left join 


sales order fact a on 


d.order date sk - a.order date sk 
inner join 


month dim b on 


[on 


.month - d.month and 


[on 


year 


- d.year 


and 
b.month 
= month 


($(hivevar:pre month date?) 
and 


b.year 
- year 


($(hivevar:pre month date?) 
group by 


b.month sk, a.product sk ; 


前 面 曾经 提 到 过 ， 周 期 快照 表 的 外 键 密度 是 均匀 的 ， 因 此 这 里 使 
用 外 连接 关联 订单 日 期 维度 和 事务 事实 表 。 即 使 上 个 月 没有 任何 销售 
记录 ， 周 期 快照 中 仍然 会 有 一 行 记录 。 在 这 种 情况 下 ， 周 期 快照 记录 
中 只 有 月 份 代 理 键 ， 而 产品 代理 键 的 值 为 预定 义 的 ‘N/A 和， 这 可 以 通过 
nvl 闵 数 实现 ， 度 量 则 为 空 值 。 严 格 地 说 产品 维度 表 中 应 该 增 
加 ‘N/A 入 这 样 一 行 表示 没有 对 应 产品 时 的 默认 值 。 

每 个 月 给 定 的 任何 一 天 ， 在 每 天 销售 订单 定期 装载 执行 完 后 ， 执 
行 month_sum.sql 脚 本 ， 装 载 上 个 月 的 销售 订单 汇总 数据 。 为 此 需要 修 
改 Oozie 的 工作 流 定义 。 


3. 修改 工作 流 作 业 配 置 文件 


需要 在 9.3 节 中 创建 的 workflow.xml 工 作 流 定义 文件 中 增加 月 底 销 
售 周期 快照 的 数据 装载 部 分 ， 修 改 后 的 文件 内 容 如 下 (只 列 出 了 增加 
的 部 分 ) : 


uos tat hn 
.. fork 节点 ..， 
， 三 个 并 行 执行 的 Sqoop 节 点 ... 
. join PA ..: 
regular_et1.sdq1 脚 本 的 Hive 节 点 ... 


«decision name="decision-node"> 
«switch» 
«case to="month-sum"> 
${date eq 20} 
</case> 
<default to="end"/> 
</switch> 
</decision> 


<action name="month-sum"> 
«hive xmlns="uri:oozie:hive-action:0.2"> 
<job-tracker>${jobTracker }</job-tracker> 
«name -node>${nameNode}</name -node» 
<job-xml>/tmp/hive-site.xml</job-xm1> 
<script>/tmp/month_sum.sql</script> 
</hive> 
<ok to="end"/> 
<error to="fail"/> 
</action> 


ora paces 
. end Tm... 


在 该 配置 文件 中 增加 了 一 个 名 为 decision-node 的 decision 控 制 节 
点 ， 用 来 判断 date 参 数 的 值 。 当 date 等 于 20 时 ， 转 到 month-sum 动 作 节 
点 ， 否 则 转 到 end 节 点 结束 工作 流 。monthsum 也 是 一 个 Hive 动 作 节 
点 ， 执 行 month_sum.sql 文 件 闭 载 周期 快照 事实 表 ， 成 功 执行 后 转 到 
end 节 点 结束 。 很 明显 ， 本 例 中 decision 节 点 的 作用 就 是 控制 在 并 且 只 


在 一 个 月 当中 的 某 一 天 执行 周期 快照 表 的 数据 装载 ， 其 他 日 期 不 做 这 
步 操 作 。 之 所 以 这 里 是 20 是 为 了 方便 测试 。month_sum.sql 文 件 中 使 用 
的 是 add_months(current_date,-1) 取 上 个 月 的 年 月 ， 因 此 不 必要 非得 1 号 
执行 ， 任 何 一 天 都 可 以 。 这 个 工作 流 定 义 保 证 了 每 月 汇总 只 有 在 每 天 
汇总 执行 完 后 才 执 行 ， 并 且 每 月 只 执行 一 次 。 工 作 流 的 DAG 如 图 11-2 
所 示 。 


sqoop-customer sqoop-product sqoop-sales order 


| 


hive-node < decision-node ;— ——» month-sum 


end |l] d 


图 11-2 ”增加 了 周期 快照 装载 的 工作 流 


4. 修改 协调 作业 配置 文件 


需要 在 调度 作业 配置 文件 中 增加 date 属 性 的 定义 。 调 度 执 行 工 作 
流 时 ， 该 属性 的 值 会 作为 实 参 传 入 workflow.xml 工 作 流 定义 文件 中 。 
修改 后 的 coordinatorxml 文 件 内 容 如 下 : 


<coordinator-app name-"regular etl-coord" frequency="${coord:days(1)}" start="${start}" 
end="${end}" timezone="${timezone}" xmlns="uri 
:oozie:coordinator:0.1"> 
<action> 
<workflow> 
<app-path>$ {workflowAppUri}</app-path> 
<configuration> 
<property> 
<name>jobTracker</name> 
<value>${jobTracker}</value> 
</property> 
<property> 
<name>nameNode</name> 
<value>$ {nameNode}</value> 
</property> 
<property> 
<name>queueName</name> 
<value>$ {queueName}</value> 
</property> 
<property> 
<name>date</name> 
<value>$ {date}</value> 
</property> 
</configuration> 
</workflow> 
</action> 
</coordinator-app> 


5. 修改 协调 作业 属性 文件 


修改 后 的 job-coord.properties 文 件 内 容 如 下 : 


nameNode-hdfs://cdh2:8020 

jobTrackerzcdh2:8032 

queueName-default 

oozie.use.system.libpath-true 

oozie.coord.application. path=${nameNode}/user/${user .name} 
timezone=UTC 

start-2016-07-20T01:30Z 

end-2020-12-31T01:30Z 

workf LowAppUri=${nameNode}/user/${user .name} 


对 比 9.3 节 创建 的 job-coord.properties 文 件 ， 这 里 只 修改 了 start 和 
end 属 性 的 值 以 用 于 测试 。 


6. 部 署 工作 流 和 协调 作业 


hdfs dfs -put -f coordinator.xml /user/root/ 

hdfs dfs -put -f /root/workflow.xml /user/root/ 

hdfs dfs -put -f /etc/hive/conf.cloudera.hive/hive-site.xml 
/tmp/ 

hdfs dfs -put -f /root/mysql-connector-java-5.1.38/mysql- 
connector-java-5.1.38-bin.jar /tmp/ 

hdfs dfs -put -f /root/regular etl.sql /tmp/ 

hdfs dfs -put -f /root/month sum.sql /tmp/ 


将 所 有 相关 文件 从 本 地 上 传 到 HDFS 对 应 目录 中 ， 如 果 文 件 已 经 
FEE 


7。 运 行 协 调 作 业 进 行 测试 
执行 下 面 的 shell 命 令 运行 Oozie 工 作 流 : 


oozie job -oozie http://cdh2:11000/00zie -config /root/job- 
coord.properties -run -D 


date- date +"%d" 


注意 这 里 使 用 -D 命 令 行 参 数 设 置 coordinatorxml 文 件 中 定义 的 date 
属性 的 值 。 命 令 行 设置 的 属性 值 优 先 级 高 于 属性 文件 中 的 设置 。date 
+"%d" shell 命 令 返 回 按 月 计 的 日 期 ， 例 如 01、20 等 。 到 了 9 点 半 工 作 流 
开始 运行 ， 执 行 完全 成 功 后 ，month_end_sales_order fact 表 中 应 该 已 
经 有 了 上 个 月 的 销售 订单 汇总 数据 。 


周期 快照 粒度 表示 一 种 常规 性 的 重复 的 度量 或 度量 集合 ， 比 如 每 
月 报表 。 这 类 事实 表 通 常 包括 一 个 单一 日 期 列 ， 表 示 一 个 周期 。 周 期 
快照 的 事实 必须 满足 粒度 需求 ， 仅 描述 适合 于 所 定义 周期 的 时 间 范 转 
的 度量 。 周 期 快照 是 一 种 常见 的 事实 表 类 型 ， 通 常用 于 表示 账户 余 
额 、 每 月 财务 报表 以 及 库存 余额 等 。 周 期 快照 的 周期 通常 是 天 、 周 或 
月 等 。 


周期 快照 具有 与 事务 粒度 事实 表 类 似 的 装载 特性 ， 插 入 数据 的 过 
时 类似。 传统 上 ， 周 期 快照 在 适当 的 时 期 结束 时 将 被 装载 ， 就 像 示 例 
演示 的 那样 。 还 有 冲 见 的 一 种 做 法 是 ， 滚 动 式 地 凑 加 周期 快照 记录 。 
在 满足 以 下 两 个 条 件 时 ， 往 往 采 用 滚动 式 数 据 装载 。 一 是 事务 效 据 量 
非常 大 ， 以 至 于 装载 一 个 月 的 快照 需要 很 长 时 间 ; 二 是 快照 的 度量 是 
可 增加 的 。 例 如 ， 我 们 可 以 建立 每 日 销售 周期 快照 ， 数 据 从 事务 事实 
表 汇 总 而 来 ， 然 后 月 快照 数据 从 每 日 快照 汇总 。 这 样 能 够 把 一 个 大 的 
查询 分 散 到 每 一 天 进行 。 


11.3 ”累积 快照 


累积 快照 事实 表 用 于 定义 业务 过 程 开 始 、 结 束 以 及 期 间 的 可 区 分 
的 里 程 碑 事件 。 通 单 在 此 类 事实 表 中 针对 过 程 中 的 关键 步骤 都 包含 日 
期 外 键 ， 并 包含 每 个 步骤 的 度量 ， 这 些 度量 的 产生 一 般 都 会 滞后 于 数 
据 行 的 创建 时 间 。 累 积 快照 事实 表 中 的 一 行 ， 对 应 某 一 具体 业务 的 多 
个 状态 。 例 如 ， 当 订单 产生 时 会 插入 一 行 ， 当 该 订单 的 状态 改变 时 ， 
累积 事实 表 行 被 访问 并 修改 。 这 种 对 累积 快照 事实 表 行 的 一 致 性 修改 
在 三 种 类 型 的 事实 表 中 具有 独特 性 ， 对 于 前 面 介 绍 的 两 类 事实 表 只 追 
加 数据 ， 不 会 对 已 经 存在 的 行进 行 更 新 操作 。 除 了 日 期 外 键 与 每 个 关 
键 过 程 步骤 关联 外 ， 累 积 快照 事实 表 中 还 可 以 包含 其 他 维度 和 可 选 退 
化 维度 的 外 键 。 


累积 快照 事实 表 在 库存 、 采 购 、 销 售 、 电 商 等 业务 领域 都 有 广泛 
应 用 。 比 如 在 电 商 订单 里 面 ， 下 单 的 时 候 只 a 有 下 单 时 间 ， 但 是 在 支付 
的 时 候 ， 又 会 有 支付 时 间 ， 同 理 ， 还 有 发 货 时 间 ， 完 成 时 间 等 。 下 面 
以 销售 订单 数据 仓库 为 例 ， 讨 论 累积 快照 事实 表 的 实现 。 

假设 希望 跟踪 以 下 5 个 销售 订单 的 里 程 碑 : 下 订单 、 分 配 库房 、 打 
包 、 配 送 和 收 货 ， 分 别 用 状态 N、A、P、S、R 表 示 。 这 5 个 里 程 碑 的 
日 期 及 其 各 自 的 数量 来 自 源 数据 库 的 销售 订单 表 。 一 个 订单 完整 的 生 
命 周 期 由 5 行 数据 描述 : 下 订单 时 生成 一 条 销售 订单 记录 ; 订单 商品 被 
分 配 到 相应 库房 时 ， 新 增 一 条 记录 ， 存 储 分 配 时 间 和 分 配 数量 ; 产品 
打包 时 新 增 一 条 记录 ， 存 储 打 包 时 间 和 数量 ; 类 似 的 ， 订 单 配送 和 订 
单 客户 收 货 “时 也 都 分 别 新 增 一 条 记录 ， 保 存 各 自 的 时 间 惟 与 数量 。 为 
了 简化 示例 ， 不 考虑 每 种 状态 出 现 多 条 记录 的 情况 (例如 ， 一 条 订单 
中 的 产品 可 能 是 在 不 同时 间 点 分 多 次 出 库 ) ， 并 且 假 设 这 5 个 里 程 碑 是 
以 严格 的 时 间 顺 序 正 向 进行 的 。 


对 订单 的 每 种 状态 新 增 记录 只 是 处 理 这 种 场景 的 多 种 设计 方案 之 
一 。 如 果 里程 碑 的 定义 良好 并 且 不 会 轻易 改变 ， 也 可 以 考虑 在 源 订单 
事务 表 中 新 增 每 种 状态 对 应 的 数据 列 ， 例 如 ， 新 增 8 列 ， 保 存 每 个 状态 
的 时 间 惟 和 数量 。 新 增 列 的 好 处 是 仍然 能 够 保证 订单 号 的 唯一 性 ， 并 
保持 相对 较 少 的 记录 数 。 但 是 ， 这 种 方案 还 需要 额外 增加 一 个 
last_modified 字 段 记录 订单 的 最 后 修改 时 间 ， 用 于 Sqoop 增 量 数据 抽 
取 。 因 为 每 条 订单 在 状态 变更 时 都 会 被 更 新 ， 所 以 订单 号 字段 已 经 不 
能 作为 变化 数据 捕获 的 比较 依据 。 


1. 修改 数据 库 模 式 


执行 下 面 的 脚本 将 源 数 据 库 中 销售 订单 事务 表 结 构 做 相应 改变 ， 
以 处 理 5 种 不 同 的 状态 。 


-- mysql 
use 


source; 
-- 修改 销售 订单 事务 表 
alter table 
sales order 
change order date status date datetime 
add 
order status varchar 


(1) after 


status date, 
change order quantity quantity int 


P 
1 


-- 删除 sales_order 表 的 主键 
alter table 


sales order change order number order number int not null 


alter table 
sales order drop primary key 


-- 建立 新 的 主键 
alter table 


sales order add 
id int 
unsigned not null 


auto increment 
primary key comment 


主键 ' first 


说 明 : 


。 将 order_date 字 段 改 名 为 status_date， 因 为 日 期 不 再 单纯 指 订 单 
日 期 ， 而 是 指 变 为 某 种 状态 日 期 。 
将 order_quantity 字 段 改名 为 quantity， 因 为 数量 变 为 某 种 状态 对 
应 的 数量 。 
在 status_date 字 段 后 增加 order_status 字 段 ， 存 储 N、A、P、S、 
R 等 订单 状态 之 一 。 它 描述 了 status_date 列 对 应 的 状态 值 ， 例 
如 ， 如 果 一 条 记录 的 状态 为 N， 则 status_date 列 是 下 订单 的 日 
期 。 如 果 状 态 是 R，status_date 列 是 收 货 日 期 。 
每 种 状态 都 会 有 一 条 订单 记录 ， 这 些 记 录 具 有 相同 的 订单 号 ， 
因此 订单 号 不 能 再 作为 事务 表 的 主键 ， 需 要 删除 order_number 
字段 上 的 自 增 属性 与 主键 约束 。 
。 新 增 id 字段 作为 销售 订单 表 的 主键 ， 它 是 表 中 的 第 一 个 字段 。 
依据 源 数据 库 事务 表 的 结构 ， 执 行 下 面 的 脚本 修改 Hive 中 相应 的 
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use 


rds; 
alter table 


sales_order 
change order_date status_date timestamp comment 


"status date'; 
alter table 


sales_order 
change order_quantity quantity int comment 


'quantity'; 
alter table 


sales order 
add 


columns (order status varchar 
(1) comment 


'order status'); 
说 明 : 


。 将 销售 订单 事实 表 中 order_date 和 order_quantity 字 段 的 名 称 修改 
为 与 产 表 一 致 。 

。 增加 订单 状态 字段 。 

e rds.sales_order 并 没有 增加 id 列 ， ri as alee 
增 量 检查 列 ， 不 用 在 过 渡 表 中 存储 ; 二 是 不 需要 再 重新 导入 已 
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执行 下 面 的 脚本 将 数据 仓库 中 的 事务 事实 表 改 造成 累积 快照 事实 
表 。 


use 
dw; 

-- 事实 表 增 加 八 列 

alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact 
( 


order number int comment 


'order number', 


customer sk int comment 


'customer SK', 
customer zip code sk int comment 


'customer zip code SK', 
shipping. zip code sk int comment 


'shipping zip code SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 


allocate date sk int comment 'allocate date SK', 


allocate quantity int comment 'allocate quantity', 


packing date sk int comment 'packing date SK', 


packing quantity int comment 'packing quantity', 


ship date sk int comment 'ship date SK', 


ship quantity int comment 'ship quantity', 


receive date sk int comment 'receive date SK', 


receive quantity int comment 'receive quantity' 
, 


request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity' 
) 
clustered by 
(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


sales order fact 
select 


order number, 
customer sk, 
customer zip. code sk, 
shipping. zip. code sk, 
product sk, 
sales order attribute sk, 
order date sk, 
null, null, null, null, null, null, null, null, 


request delivery date sk, 
order amount, 
order quantity 

from 


sales order fact old; 
drop table 


sales order fact old; 


-- 建立 4 个 日 期 维度 视图 
create view 


allocate date dim 
(allocate date sk, allocate date, month 


, month name, quarter, year 


select 
date sk, date 
, month 


, month name, quarter, year 


from 
date dim ; 
create view 


packing date dim 
(packing date sk, packing date, month 


, month name, quarter, year 


) 


as 


select 
date sk, date 
, month 


, month name, quarter, year 


from 
date dim ; 
create view 


ship date dim 
(ship date sk, ship date, month 


, month name, quarter, year 


select 
date sk, date 
, month 


, month name, quarter, year 


from 
date dim ; 
create view 


receive date dim 
(receive date sk, receive date, month 


, month name, quarter, year 


) 


as 


select 
date sk, date 
, month 


, month name, quarter, year 


from 


date dim ; 
说 明 : 


。 在 销售 订单 事实 表 中 新 增加 8 个 字段 存储 4 个 状态 的 日 期 代理 键 
和 度量 值 。 


。 新 增 8 个 字段 的 初始 值 为 空 。 

。 建立 4 个 日 期 角色 扮演 维度 视图 ， 用 来 获取 相应 状态 的 日 期 代理 
p 

。 ORC 表 增加 字段 需要 重建 表 以 重新 组 织 数据 。 


2. 重建 Sqoop 作 业 


使 用 下 面 的 脚本 重建 Sqgoop 作 业 ， 因 为 源 表 会 有 多 个 相同 的 
order_number， 所 以 不 能 再 用 它 作 为 检查 字段 ， 将 检查 字段 改 为 id。 抽 
取 的 字段 名 称 也 要 做 相应 修改 。 


last value-'sqoop job --show myjob incremental import --meta- 
connect 

jdbc:hsqldb:hsql://cdh2:16000/sqoop | grep 
incremental.last.value | awk '{print $3} 

sqoop job --delete myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 

sqoop job \ 

--meta-connect jdbc:hsqldb:hsql://cdh2:16000/sqoop \ 
--create myjob_incremental_import \ 

import \ 

--connect "jdbc:mysq1://cdh1:3306/source? 
useSSL=false&user=root&password=mypassword" \ 

--table sales_order \ 

--columns "order_number, customer_number, product_code, 
status_date 


, entry_date, 
order_amount, quantity 


, request delivery date, verification ind, credit check flag, 
new customer ind, web order flag, order status 


n N 

--hive-import \ 

--hive-table rds.sales order \ 
--incremental append \ 
--check-column id \ 


--last-value $last_value 


3。 修改 定期 装载 regular_etl.sql 文 件 


需要 依据 数据 库 模式 修改 定期 装载 的 HiveQL 脚 本 ， 修 改 后 的 脚本 
如 下 所 示 《只 列 出 修改 的 部 分 ) o 


- - 设置 环境 与 时 间 窗 口 

-- 装载 customer 维 度 ... 
-- 装载 product 维 度 ... 
- - 装载 销售 订单 事实 表 

-- 前 一 天 新 增 的 销售 订单 


insert into 


sales order fact 
select 


a.order number, 

c.customer sk, 

i.customer zip code sk, 
j.shipping zip code sk, 
d.product sk, 
g 
e 
n 


.sales_order_attribute_sk, 
.order_date_sk, 
ull, null, null, null, null, null, null, null, 


f.request_delivery_date_sk, 
order_amount, 
quantity 

from 


rds.sales_order a, 
customer_dim c, 

product_dim d, 
order_date_dim e, 
request_delivery_date_dim f, 
sales_order_attribute_dim g, 
customer_zip_code_dim i, 


shipping zip code dim j, 
rds.customer k, 
rds.cdc time 1 

where a.order status - 'N' 


and 


a.customer number = c.customer number 
and 


a.status date »- c.effective date 
and 


a.status date « c.expiry date 
and 


a.customer number - k.customer number 
and 


k.customer zip code - i.customer zip code 
and a.status date »- i.effective date 


and a.status date «- i.expiry date 


and 


k.shipping zip code - j.shipping zip code 
and 


a.status date »- j.effective date 
and 


a.status date «- j.expiry date 
and 


a.product code - d.product code 
and 


a.status date »- d.effective date 
and 


a.status date « d.expiry date 
and to date 


(a.status date) - e.order date 


and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date « l.current load ; 


-- 更 新 分 配 库房 时 间 代 理 键 和 度量 


drop table if exists 


tmp; 
create table 


tmp as 


select 


tOo.order number order number, 
tO.customer sk customer sk, 
tO.customer zip code sk customer zip code sk, 
tO.shipping zip code sk shipping zip code sk, 
tO.product sk product sk, 
tO.sales order attribute sk sales order attribute sk, 
tOo.order date sk order date sk, 
t2.allocate date sk allocate date sk, 
ti.quantity allocate quantity, 
tO.packing date sk packing date sk, 
tO.packing quantity packing quantity, 
tO.ship date sk ship date sk, 
tO.ship quantity ship quantity, 
tO.receive date sk receive date sk, 
tO.receive quantity receive quantity, 


tO.request delivery date sk request delivery date sk, 
tO.order amount order amount, 


tO.order quantity 
from 


sales order fact t0, 


order quantity 


rds.sales order t1, 


allocate date dim 
rds.cdc time t4 
where 


t2; 


to.order number = t1.order_number and 


"A! 


ti.order_status 
and to date 


(ti.status date) = t2.allocate date 


and 


ti.entry date >= t4.last load and 


tl.entry date < t4.current load; 


delete from 


sales order fact where 


sales order fact. order number in 


(select 


order number 
from 


tmp); 
insert into 


sales order fact select 


tmp; 


-- 更 新 打包 时 间 代 理 键 和 度量 ， 


order status = 'P' 

-- 更 新 配送 时 间 代 理 键 和 度量 ， 
= AS 

-- 更 新 收 货 时 间 代 理 键 和 度量 ， 


order status - 'R' 


* from 


关联 packing_date_dim 维 度 视图 ， 
关联 ship_date_dim 维 度 视图 ，order_status 


关联 receive_date_dim 维 度 视 图 ， 


-- 重 载 pa 客 户 维度 ... 
- 更 新 时 间 戳 表 的 last_1oad 字 段 ... 


需要 修改 定期 数据 装载 中 的 事实 表 部 分 ， 针 对 5 个 里 程 碑 分 别处 
理 。 首 先 装 载 新 增 的 订单 。 在 装载 事务 事实 表 时 ， 只 用 entry_date >= 
last load and entry. date < current_load 条 件 就 可 以 过 滤 出 新 增 的 订单 。 
但 是 对 于 累积 快照 ， 一 个 登记 日 期 下 会 有 多 种 状态 的 订单 ， 因 此 需要 
增加 订单 状态 order_status = 'N' 的 判断 。 妆 载 新 增订 单 时 要 连接 过 渡 区 
的 销售 订单 表 以 及 所 有 相关 的 维度 表 ， 从 过 渡 表 中 获取 订单 金额 和 订 
单产 品 数量 度量 值 ， 从 维度 表 中 获取 相关 维度 的 代理 键 。 


其 他 4 个 状态 的 处 理 和 新 增订 单 有 所 不 同 。 因 为 此 时 订单 记录 已 经 
存在 ， 除 了 与 特定 状态 相关 的 日 期 维度 代理 键 和 状态 数量 需要 更 改 ， 
其 他 的 信息 不 需要 更 新 。 例 如 ， 当 一 个 订单 的 状态 由 新 增 变 为 分 配 库 
房 时 ， 只 要 使 用 订单 号 字段 关联 累积 快照 事实 表 和 过 渡 区 的 事务 表 ， 
以 事务 表 的 order_status = 'A' 为 筛选 条 件 ， 更 新 累积 快照 事实 表 的 状态 
日 期 代理 键 和 状态 数量 两 个 字段 即 可 。 对 其 他 三 个 状态 的 处 理 是 类 似 
的 ， 只 要 将 过 滤 条 件 换 成 对 应 的 状态 值 ， 并 关联 相应 的 日 期 维度 视图 
获取 日 期 代理 键 。 


注意 ， 本 示例 中 的 累积 周期 快照 表 仍 然 是 以 订单 号 字段 作为 逻辑 
上 的 主键 ， 数 据 委 载 过 程 实际 上 是 做 了 一 个 行 转 列 的 操作 ， 用 产 效 据 
表 中 的 状态 行 信息 更 新 累积 快照 的 状态 列 。Hive 目 前 没有 多 表 更 新 功 
能 ， 所 以 用 先 删除 再 插入 的 方式 替代 。 之 所 以 可 以 这 样 做 ， 是 因为 事 
务 事实 表 中 的 订单 号 字段 起 到 了 主键 的 作用 ， 它 能 够 唯一 标识 一 行 数 
fimo 虽然 处 理 方式 相同 ， 但 对 于 每 种 状态 还 是 需要 编写 单独 的 HiveQL 
语句 进行 处 理 。 


4. 测试 


可 以 按照 以 下 步骤 进行 累积 快照 事实 表 的 数据 装载 测试 。 

(1) 在 源 数据 库 的 销售 订单 事务 表 中 新 增 两 个 销售 订单 记录 。 

(2) 设置 适当 的 cdc_time 时 间 窗 口 。 

(3) 执行 定期 装载 脚本 。 

(4) 查询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 
功 。 此 时 应 该 只 有 订单 日 期 代理 键 列 有 值 ， 其 他 状态 的 日 期 值 都 是 


NULL， 因 为 这 两 个 订单 是 新 增 的 ， 并 且 还 没有 分 配 库房 、 打 包 、 配 
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(5) 在 源 数据 库 中 添加 销售 订单 作为 这 两 个 新 增订 单 的 分 配 库房 
和 打包 里 程 碑 。 


(6) 设置 适当 的 cdc time 时间 窗口 。 
(7) 执行 定期 装载 脚本 。 


(8) 查询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 成 
功 。 此 时 订单 应 该 具有 了 分 配 库房 或 打包 的 日 期 代理 键 和 度量 值 。 


(9) 在 源 数据 库 中 添加 销售 订单 作为 这 两 个 订单 后 面 的 里 程 碑 : 
打包 、 配 送 和 收 货 。 注 意 4 个 状态 日 期 可 能 相同 。 


(10) 设置 适当 的 cdc_time 时 间 窗 口 。 

(11) 执行 定期 装载 脚本 。 

(12) 查询 sales_order_fact 表 里 的 两 个 销售 订单 ， 确 认定 期 装载 
成 功 。 此 时 订单 应 该 具有 了 所 有 4 个 状态 的 日 期 代理 键 和 度量 值 。 

(13) 还 原 cdc_time 时 间 窗 口 。 

累积 快照 粒度 表示 一 个 有 明确 开始 和 结束 过 程 的 当前 发 展 状态 。 
通常 ， 这 些 过 程 持 续 时 间 较 短 ， 并 且 状 态 之 间 没 有 固定 的 时 间 间 隔 ， 
因此 无 法 将 它 归 类 到 周期 快照 中 。 订 单 处 理 是 一 种 典型 的 累积 快照 示 


— 
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例 。 累 积 快照 的 设计 和 管理 与 其 他 两 类 事实 表 存 在 较 大 的 差异 。 所 有 
累积 快照 事实 表 都 包含 一 系列 日 期 ， 用 于 描述 典型 的 处 理工 作 流 。 


例如 ， 我 们 的 销售 订单 示例 包含 订单 日 期 、 分 配 库房 日 期 、 打 包 
日 期 、 配 送 日 期 以 及 收 货 日 期 等 ， 这 5 个 不 同 的 日 期 是 以 5 个 不 同日 期 
值 代 理 键 的 外 键 出 现 的 。 当 订单 行 首次 建立 时 只 有 订单 日 期 ， 因 为 其 
他 的 状态 都 还 没有 发 生 。 当 订单 在 其 流水 线 上 执行 时 ， 同 一 个 事实 行 
被 顺序 访问 。 每 当 订单 状态 发 生 改变 时 ， 累 积 快照 事实 行 就 被 修改 。 
日 期 外 键 被 重 写 ， 各 类 度量 被 更 新 。 通 单 初 始 的 订单 生成 日 期 不 会 更 
新 ， 因 为 它 描述 的 是 行 被 建立 的 时 间 ， 但 是 所 有 其 他 日 期 都 可 以 被 重 
写 。 


通常 利用 三 种 事实 表 类 型 来 满足 各 种 需要 。 周 期 历史 可 以 通过 周 
期 快照 获取 ， 细 节 数 据 可 以 被 保存 到 事务 粒度 事实 表 中 ， 而 对 于 具有 
多 个 定义 良好 里 程 碑 的 处 理工 作 流 ， 则 可 以 使 用 累积 快照 。 


11.4 ”无 事实 的 事实 表 


在 多 维 数据 仓库 建 模 中 ， 有 一 种 事实 表 叫 做 “无 事实 的 事实 表 ”。 
普通 事实 表 中 ， 通 常会 保存 若干 维度 外 键 和 多 个 数字 型 度量 ， 度 量 是 
事实 表 的 关键 所 在 。 然 而 在 无 事实 的 事实 表 中 没有 这 些 度 量 值 ， 只 有 
多 个 维度 外 键 。 表 面 上 看 ， 无 事实 的 事实 表 是 没有 意义 的 ， 因 为 作为 
事实 表 ， 毕 竟 最 重要 的 就 是 度量 。 但 在 数据 仓库 中 ， 这 类 事实 表 有 其 
特殊 用 途 。 无 事实 的 事实 表 通 常用 来 跟踪 某 种 事件 或 者 说 明 某 些 活动 
的 学 围 。 


无 事实 的 事实 表 可 以 用 来 跟踪 事件 的 发 生 。 例 如 ， 在 给 定 的 某 一 
天 中 发 生 的 学 生 参 加 课程 的 事件 ， 可 能 没有 可 记录 的 数字 化 事实 ， 但 
该 事实 行 带 有 一 个 包含 日 期 、 学 生 、 教 师 、 地 点 、 课 程 等 定义 良好 的 
外 键 。 利 用 无 事实 的 事实 表 可 以 按 各 种 维度 计数 上 课 这 个 事件 。 


再 比如 学 生 注 册 事 件 ， 学 校 需要 对 学 生 按 学 期 进行 跟踪 。 维 度 表 
包括 学 期 维度 、 课 程 维 度 、 系 维度 、 学 生 维 度 、 注 册 专 业 维 度 和 取得 
学 分 维度 等 ， 而 事实 表 由 这 些 维度 的 主键 组 成 ， 事 实 只 有 注册 数 ， 并 
且 恒 为 1， 因 此 没有 必要 用 单独 一 列 来 表示 。 这 样 的 事实 表 主 要 用 于 回 
答 各 种 情况 下 的 注册 数 。 

无 事实 的 事实 表 还 可 以 用 来 说 明 某 些 活动 的 范围 ， 常 被 用 于 回答 
“什么 未 发 生 ” 这 样 的 问题 。 例 如 : 促销 范围 事实 表 。 通 常 销售 事实 表 
可 以 回答 如 促销 商品 的 销售 情况 ， 可 是 无 法 回 丛 的 一 个 重要 问题 是 : 
处 于 促销 状态 但 尚未 销售 的 产品 包括 哪些 ? 销售 事实 表 所 记录 的 仅仅 
是 实际 卖 出 的 产品 。 事 实 表 行 中 不 包括 由 于 没有 销售 行为 而 销售 数量 
为 零 的 行 ， 因 为 如 果 将 包含 零 值 的 产品 都 加 到 事实 表 中 ， 那 么 事实 表 
将 变 得 非常 巨大 。 这 时 ， 通 过 建立 促销 范围 事实 表 ， 将 商场 需要 促销 
的 商品 单独 建立 事实 表 保 存 ， 然 后 通过 这 个 促销 范围 事实 表 和 销售 事 
实 表 即 可 得 出 哪些 促销 商品 没有 销售 出 去 。 

为 确定 当前 促销 的 产品 中 哪些 尚未 卖 出 ， 需 要 两 步 过 程 : Bi, 
查询 促销 无 事实 的 事实 表 ， 确 定 给 定时 间 内 促销 的 产品 。 然 后 从 销售 
事实 表 中 确定 哪些 产品 已 经 卖 出 去 了 。 管 案 就 是 上 述 两 个 列表 的 差 
集 。 这 样 的 促销 范围 事实 表 只 是 用 来 说 明 促销 活动 的 范围 ， 其 中 没有 
任何 事实 度量 。 可 能 有 读者 会 想 ， 建 立 一 个 单独 的 促销 商品 维度 表 能 
否 达 到 同样 的 效果 呢 ? 促销 无 事实 的 事实 表 包 含 多 个 维度 的 主键 ， 可 
以 是 日 期 、 产 品 、 商 店 、 促 销 等 ， 将 这 些 键 作为 促销 商品 的 属性 是 不 
合适 的 ， 因 为 每 个 维度 都 有 自己 的 属性 集合 。 


促销 无 事实 的 事实 表 看 起 来 与 销售 事实 表 相似 。 然 而 ， 它 们 的 粒 
度 存 在 显著 差别 。 假 设 促销 是 以 一 周 为 持续 期 ， 在 促销 范围 事实 表 
中 ， 将 为 每 周 每 个 商店 中 促销 的 产品 加 载 一 行 ， 无 论 产 品 是 否 卖 出 。 
该 事实 表 能 够 确保 看 到 被 促销 定义 的 键 之 间 的 关系 ， 而 与 其 他 事件 ， 
如 产品 销售 无 天 。 


下 面 以 销售 订单 数据 仓库 为 例 ， 说 明 如 何 处 理 源 数据 中 没有 度量 
的 需求 。 我 们 将 建立 一 个 无 事实 的 事实 表 ， 用 来 统计 每 天 发 布 的 新 产 
品 数量 。 产 品 源 数据 不 包含 产品 数量 信息 ， 如 果 系 统 需要 得 到 历史 某 
一 天 新 增产 品 的 数量 ,很 显然 不 能 简单 地 从 数据 仓库 中 得 到 。 这 时 就 
要 用 到 无 事实 的 事实 表 技 术 。 使 用 此 技术 可 以 通过 持续 跟踪 产品 发 布 
事件 来 计算 产品 的 数量 。 可 以 创建 一 个 只 有 产品 〈 计 什么 数 ) 和 日 期 
(什么 时 候 计数 ) 维度 代理 键 的 事实 表 。 之 所 以 叫做 无 事实 的 事实 表 
是 因为 表 本 身 并 没有 数字 型 度量 值 。 这 里 定义 的 新 增产 品 是 指 在 某 一 
给 定 日 期 ， 产 产品 表 中 新 插入 的 产品 记录 ， 不 包括 由 于 SCD2 新 增 的 产 
品 和 版 本 记录 。 注 意 ， 单 从 这 个 简单 需求 来 看 ， 也 可 以 通过 查询 产品 维 
度 表 获取 结果 。 这 里 只 为 演示 无 事实 的 事实 表 的 实现 过 程 。 


1. 建立 新 产品 发 布 的 无 事实 的 事实 表 


在 数据 仓库 模式 中 新 建 一 个 产品 发 布 的 无 事实 的 事实 表 
product_count_fact， 该 表 中 只 包含 两 个 字段 ， 分 别 是 引用 日 期 维度 表 
和 产品 维度 表 的 外 键 ， 同 时 这 两 个 字段 也 构成 了 无 事实 事实 表 的 逻辑 
主键 。 图 11-3 显 示 了 跟踪 产品 发 布 数量 的 数据 仓库 模式 (只 显示 与 无 
事实 的 事实 表 相 关 的 表 ) o 


product count fact 
product sk «pi, fib 
product launch date sk <pi, fi2> 


T, lj 


product dim z 

r date dim 
product sk «pi» «M5 : TH 
produci SK Spi? «M» date sk <pi> «M» 
product code dake 
product name L| E 
r P Conto month 

"o category I^ 
producirse month name 
version quarter 
effective date > 
year 


expiry_date 


图 11-3 无 事实 的 事实 表 


执行 下 面 的 脚本 在 数据 仓库 模式 中 创建 产品 发 布 日 期 视图 及 其 无 
事 的 实事 实 表 。 


USe 


dw; 
create view 
product launch date dim 
(product launch date sk, 
product launch date, 


month name, 
month, 


quarter, 
year) 


as 
select distinct 


date sk, 
date, 


month name, 
month, 


quarter, 
year 
from 


product dim a, date dim b 
where 


a.effective date - b.date 


create table 


product count fact ( 
product sk int 


product launch date sk int 


说 明 : 


与 之 前 创建 的 很 多 日 期 角色 扮演 维度 不 同 ， 产 品 发 布 日 期 视图 
只 获取 产品 生效 日 期 ， 而 不 是 日 期 维度 里 的 所 有 记录 。 因 此 在 
定义 视图 的 查询 语句 中 关联 了 产品 维度 和 日 期 维度 两 个 表 。 
product_launch_date_dim 维 度 表 是 日 期 维度 表 的 子 集 。 

从 字段 定义 上 看 ， 产 品 维 度 表 中 的 生效 日 期 明显 就 是 新 产品 的 
发 布 日 期 。 

在 本 示例 中 ， 无 事实 的 事实 表 的 数据 装载 没有 行 级 更 新 需求 ， 
所 以 该 表 使 用 Hive 默 认 的 文本 存储 格式 。 


2. 初始 装载 无 事实 的 事实 表 


下 面 的 脚本 从 产品 维度 表 向 无 事实 的 事实 表 装 载 已 有 的 产品 发 布 
言 息 。 脚 本 里 的 insert 语 句 添加 所 有 产品 的 第 一 个 版 本 ， 即 产品 的 首次 
发 布 日 期 。 这 里 使 用 Hive 的 窗口 函数 row_number 正 确 地 选取 了 产品 发 
布 时 的 生效 日 期 ， 而 不 是 一 个 SCD2 行 的 生效 日 期 。 


insert 
overwrite table 


product count fact 
select 


product sk,date sk 
from 


select 


a.product sk product sk, 
b.date sk date sk, 
row number() 


over (partition by 
a.product code order by 


b.date sk) rn 
from 


product dim a,date dim b 
where 


a.effective date - b.date 


cst: 
where 


Uds 
说 明 : 


。 子 查询 中 内 连接 产品 维度 与 日 期 维度 表 ， 只 获取 产品 发 布 的 日 
期 。 

以 产品 编码 分 区 ， 同 一 个 产品 编码 的 多 个 版 本 以 发 布 日 期 排 
序 ，row_number0 函 数 为 每 个 版 本 分 配 序 号 ， 起 别名 mm。 

。 外 层 查询 以 m=1 作 为 过 滤 条 件 ， 得 到 每 个 产品 及 其 首次 发 布 日 
期 的 代理 键 。 

该 语句 允许 多 次 执行 ， 每 次 覆盖 已 有 数据 。 

其 实 利 用 产品 维度 表 的 版 本 字段 ， 更 简单 的 写法 如 下 : 


insert 


overwrite table 


product count fact 
select 


a.product sk product sk, 
b.date sk date sk 
from 


product dim a,date dim b 
where 


a.effective date - b.date and 


a.version - 1; 


3. 修改 定期 装载 脚本 


修改 了 数据 仓库 模式 后 ， 还 需要 针对 性 地 修改 定期 装载 脚本 。 该 
脚本 在 处 理 产 品 维度 表 后 增加 了 装载 product_count_fact 表 的 语句 。 下 
面 显示 了 修改 后 的 定期 装载 脚本 (只 列 出 了 修改 的 部 分 ) 。 


- -设置 环境 与 时 间 窗口 .. . 
-- 装载 customer 维 度 ... 


-- 装载 product 维 度 
-- 设置 已 删除 记录 和 product_name、product_category 列 上 SCD2 的 过 期 


-- 处 理 product_name、product_category 列 上 SCD2 的 新 增 行 ... 


- - 处 理 新 增 的 product 记 录 
drop table if exists 


tmp; 
create table 


tmp as 


select 


row number () 

over (order by 

ti.product code) + t2.sk max product sk, 
ti.product code product code, 
ti.product name product name, 
ti.product category product category, 
1 version, 
$(hivevar:pre date) effective date, 
$(hivevar:max date) expiry date 

from 

(select 

t1.* from 


rds.product t1 
left join 


product dim t2 on 


ti.product code = t2.product code 
where 


t2.product sk is null 
) ti PD 
cross join 
(select coalesce(max 
(product sk),0) sk max from 
product dim) t2; 
insert into 


product dim 
select 


product sk, 
product code, 
product name, 
product category, 
version, 


effective date, 

expiry date 
from 

tmp; 


insert into 


product count fact 
select 


product sk, date sk 
from 


tmp, 
(select 


date sk from 

dw.date dim where date 

= ${hivevar:pre_date}) t; 

-- 装载 销售 订单 事实 表 

-- 前 一 天 新 增 的 销售 订单 

- 更 新 分 配 库房 、 打 包 、 配 送 、 收 货 4 种 订单 状态 的 时 间 代 理 键 和 度量 


-- 重 载 pa 客 户 维度 ... 
- 更 新 时 间 戳 表 的 last_1oad 字 段 ... 


说 明 : 


。 处 理 新 增产 品 记 录 时 使 用 了 一 个 临时 表 ， 目 的 是 在 后 续 装载 数 
据 时 不 用 再 重复 执行 复杂 的 多 表 查 询 。 

。 临时 表 的 结构 与 产品 维度 表 完 全 一 致 ， 存 储 的 是 本 次 装载 新 增 
的 产品 信息 ， 包 括 了 代理 键 、 版 本 号 、 生 效 日 期 和 过 期 日 期 ， 
因此 只 需要 将 临时 表 的 数据 装载 到 产品 维度 表 中 。 

。 装载 产品 发 布 事实 表 时 ， 先 用 一 个 子 查询 取得 唯一 的 日 期 代理 
键 ， 然 后 与 临时 表 笛 卡尔 连接 ， 将 结果 集中 的 新 增产 品 代理 键 
和 日 期 代理 键 插入 无 事实 的 事实 表 中 。 


4. 测试 定期 装载 


(1) 修改 源 数 据 库 的 产品 表 数据 ， 有 具体 做 两 点 修改 : 新 增 一 个 产 
品 ; 更 改 一 个 已 有 产品 的 名 称 。 


(2) 执行 定期 装载 脚本 。 


(3) 上 一 步 执行 成 功 后 ， 查 询 产 品 发 布 无 事实 的 事实 表 ， 确 认定 
期 装载 执行 正确 。 此 时 的 结果 应 该 只 是 增加 了 一 条 新 产品 记录 ， 原 有 
数据 没有 变化 。 

无 事实 的 事实 表 是 没有 任何 度量 的 事实 表 ， 它 本 质 上 是 一 组 维度 
的 交集 。 用 这 种 事实 表 记 录 相 关 维 度 之 间 存 在 多 对 多 关系 ， 但 是 关系 
上 没有 数字 或 者 文本 的 事实 。 无 事实 的 事实 表 为 数据 仓库 设计 提供 了 
更 多 的 灵活 性 。 再 次 考虑 学 生 上 课 的 应 用 场景 ， 使 用 一 个 由 学 生 、 时 
间 、 课 程 三 个 维度 键 组 成 的 无 事实 的 事实 表 ， 可 以 很 容易 地 回答 如 下 


问题 : 


© 有 多 少 学 生 在 某 天 上 了 给 定 的 一 门 课程 ? 
。 在 某 段 时 间 里 ， 一 名 给 定 学 生 每 天 所 上 课程 的 平均 数 是 多 少 ? 


11.5 ”迟到 的 事实 


数据 仓库 通 瘦 建立 于 一 种 理想 的 假设 情况 下 ， 这 就 是 数据 仓库 的 
度量 (事实 记录 ) 与 度量 的 环境 (维度 记录 ) 同时 出 现在 数据 仓库 
中 。 当 同时 拥有 事实 记录 和 正确 的 当前 维度 行 时 ， 就 能 够 从 容 地 首先 
维护 维度 键 ， 然 后 在 对 应 的 事实 表 行 中 使 用 这 些 最 新 的 键 。 然 而 ， 各 
种 各 样 的 原因 会 导致 需要 ETL 系 统 处 理 迟 到 的 事实 数据 。 例 如 ， 某 些 
线 下 的 业务 ， 数 据 进 入 操作 型 系统 的 时 间 会 滞后 于 事务 发 生 的 时 间 。 


再 或 者 出 现 某 些 极端 情况 ， 如 源 数 据 库 系 统 出 现 故 障 ， 直 到 恢复 后 才 
能 补 上 故障 期 间 产 生 的 数据 。 


在 销售 订单 示例 中 ， 晚 于 订单 日 期 进入 产 数 据 的 销售 订单 可 以 看 
作 是 一 个 迟到 事实 的 例子 。 销 售 订单 数据 被 装载 进 其 对 应 的 事实 表 
时 ， 装 载 日 期 晚 于 销售 订单 产生 的 日 期 ， 因 此 是 一 个 迟到 的 事实 。 本 
例 中 因为 定期 装载 的 是 前 一 天 的 数据 ， 所 以 这 里 的 “ 晚 于 ” 指 的 是 事务 
数据 延迟 两 天 及 其 以 上 才 到 达 ETL 系 统 。 


必须 对 标准 的 ETL 过 程 进行 特殊 修改 以 处 理 迟 到 的 事实 。 首 先 ， 
当 迟 到 度量 事件 出 现时 ， 不 得 不 反 向 搜索 维度 表 历 史记 录 ， 以 确定 事 
务 发 生 时 间 点 的 有 效 的 维度 代理 键 ， 因 为 当前 的 维度 内 容 无 法 匹配 输 
入 行 的 情况 。 此 外 ， 还 需要 调整 后 续 事实 行 中 的 所 有 半 可 加 度量 ， 例 
如 ， 由 于 述 到 的 事实 导致 客户 当前 余额 的 改变 。 返 到 事实 可 能 还 会 引 
起 周期 快照 事实 表 的 数据 更 新 。 例 如 11.2 节 讨论 的 月 销售 周期 快照 
表 ， 如 果 2016 年 6 月 的 销售 订单 金额 已 经 计算 并 存储 在 
month_end_sales_order_fact 快 照 表 中 ， 这 时 一 个 迟到 的 6 月 订单 在 7 月 
某 天 被 装载 ， 那 么 2016 年 6 月 的 快照 金额 必须 因 迟 到 事实 而 重新 计算 。 


下 面 就 以 销售 订单 数据 仓库 为 例 ， 说 明 如 何 处 理 迟 到 的 事实 。 
1. 修改 数据 仓库 模式 


回忆 一 下 11.2 节 中 建立 的 月 销售 周期 快照 表 ， 其 数据 产 目 已 经 处 
理 过 的 销售 订单 事务 事实 表 。 因 此 为 了 确定 事实 表 中 的 一 条 销售 订单 
记录 是 否 是 述 到 的 ， 需 要 把 源 数 据 中 的 登记 日 期 列 闭 载 进 宵 售 订单 事 
实 表 。 为 此 要 在 销售 订单 事实 表 上 添加 登记 日 期 代理 键 列 。 为 了 获取 
登记 日 期 代理 键 的 值 ， 还 要 使 用 维度 角色 扮演 技术 添加 登记 日 期 维度 
表 。 


执行 下 面 的 脚本 在 销售 订单 事实 表 里 添 加 名 为 entry_date_sk 的 日 
期 代理 键 列 ， 并 且 从 日 期 维度 表 创 建 一 个 叫做 entry_date_dim 的 数据 库 
视图 。 


USe 


dw; 


-- 在 事务 事实 表 中 添加 登记 日 期 代理 键 列 
alter table 


sales order fact rename to 


sales order fact old; 
create table 


sales order fact 


( 


order number int comment 


'order number', 
customer sk int comment 


'customer SK', 
customer zip code sk int comment 


'customer zip code SK', 
shipping zip code sk int comment 


'shipping zip code SK', 
product sk int comment 


'product SK', 
sales order attribute sk int comment 


'sales order attribute SK', 
order date sk int comment 


'order date SK', 
entry date sk int comment 'entry date SK', 
allocate date sk int comment 


'allocate date SK', 


allocate quantity int comment 


'allocate quantity', 
packing date sk int comment 


'packing date SK', 
packing quantity int comment 


'packing quantity', 
ship date sk int comment 


'ship date SK', 
ship quantity int comment 


'ship quantity', 
receive date sk int comment 


'receive date SK', 
receive quantity int comment 


'receive quantity', 
request delivery date sk int comment 


'request delivery date SK', 
order amount decimal 


(10,2) comment 


'order amount', 
order quantity int comment 


'order quantity' 
) 
clustered by 
(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert into 


sales order fact 
select 


order number, 
customer sk, 


customer zip. code sk, 
shipping. zip. code sk, 
product sk, 

sales order attribute sk, 
order date sk, 

null, 


allocate date sk, 
allocate quantity, 
packing date sk, 
packing quantity, 
ship date sk, 
ship. quantity, 
receive date sk, 
receive quantity, 
request delivery date sk, 
order amount, 
order quantity 
from 


sales order fact old; 
drop table 


sales order fact old; 


-- 建立 登记 日 期 维度 视图 
create view 


entry date dim 
(entry date sk, entry date, month name, month 


, quarter, year 


) 


as 


select 
date sk, date 
, month name, month 


, quarter, year 


from 


date dim; 


2. 修改 销售 订单 定期 装载 脚本 


在 创建 了 登记 日 期 维度 视图 ， 并 给 销售 订单 事实 表 添 加 了 登记 日 
期 代理 键 列 以 后 ， 需 要 修改 数据 仓库 定期 装载 脚本 来 装载 登记 日 期 。 
下 面 显 示 了 修改 后 的 regular_etl.sql 定 期 装载 脚本 (只 列 出 修改 的 部 
分 ) 。 注 意 sales_order 源 数据 表 及 其 对 应 的 过 渡 表 中 都 已 经 含有 登记 
日 期 ， 只 是 以 前 没有 将 其 装载 进 数据 仓库 。 


- - 设置 环境 与 时 间 窗 口 ... 

-- 装载 customer 维 度 ... 

-- 装载 product 维 度 ... 

-- 装载 新 产品 发 布 无 事实 的 事实 表 ... 


-- 装载 销售 订单 事实 表 
-- 前 一 天 新 增 的 销售 订单 


insert into 


sales order fact 
select 


a.order number, 

.customer sk, 

.customer zip code sk, 
.shipping zip code sk, 
.product sk, 

.sales order attribute sk, 
.Oorder date sk, 

.entry date sk, 


Joa au. HoA] 


null, null, null, null, null, null, null, null, 


f.request_delivery_date_sk, 
order_amount, 
quantity 


from 


rds.sales order a, 
customer dim c, 
product dim d, 
order date dim e, 
request delivery date dim f, 
sales order attribute dim g, 
customer zip code dim i, 
shipping. zip code dim j, 
entry date dim h, 


rds.customer k, 
rds.cdc time 1 
where 


a.order status = 'N' 
and 


a.customer number = c.customer number 
and 


a.status date »- c.effective date 
and 


a.status date « c.expiry date 
and 


a.customer number = k.customer number 
and 


k.customer zip code - i.customer zip code 
and 


a.status date »- i.effective date 
and 


a.status date «- i.expiry date 
and 


k.shipping zip code - j.shipping zip code 
and 


a.status date »- j.effective date 
and 


a.status date «- j.expiry date 


and 


a.product code = d.product code 
and 


a.status date »- d.effective date 
and 


a.status date « d.expiry date 
and to date 


(a.status date) - e.order date 
and to date(a.entry date) - h.entry date 
and to date 


(a.request delivery date) - f.request delivery date 
and 


a.verification ind - g.verification ind 
and 


a.credit check flag - g.credit check flag 
and 


a.new customer ind - g.new customer ind 
and 


a.web order flag - g.web order flag 
and 


a.entry date >= l.last load and 


a.entry date « l.current load ; 


-- 更 新 分 配 库房 、 打 包 、 配 送 、 收 货 4 种 订单 状态 的 时 间 代 理 键 和 度量 ， 
-- 也 要 加 上 entry_date_sk 列 


-- 重 载 pa 客户 维度 ... 
-- 更 新 时 间 惟 表 的 last_1oad 字 段 ... 


本 节 开 头 曾经 提 到 ， 需 要 为 迟到 的 事实 行 获取 事务 发 生 时 间 点 的 
有 效 的 维度 代理 键 。 在 装载 脚本 中 使 用 销售 订单 过 渡 表 的 状态 日 期 字 
段 限定 当时 的 维度 代理 键 。 例 如 ， 为 了 获取 事务 发 生 时 的 客户 代理 
He, THAR IPA: 


status_date >= customer_dim.effective date 
and 


status_date < customer_dim.expiry_date 


之 所 以 可 以 这 样 做 ， 原 因 在 于 本 示例 满足 以 下 两 个 前 提 条 件 : 在 
最 初 源 数 据 库 的 销售 订单 表 中 ，status_date 存 储 的 是 状态 发 生 时 的 时 
间 ; 维度 的 生效 时 间 与 过 期 时 间 构 成 一 条 连续 且 不 重 赤 的 时 间 轴 ， 任 
意 status_date 日 期 只 能 落 到 唯一 的 生效 时 间 、 过 期 时 间 区 间 内 。 


3. 修改 装载 月 销售 周期 快照 事实 表 脚 本 


11.2 节 创建 的 month_sum.sql 脚 本 文件 用 于 装载 月 销售 周期 快照 事 

实 表 。 述 到 的 事实 记录 会 对 周期 快照 中 已 经 生成 的 月 销售 汇总 数据 产 
影响 ， 因 此 必须 做 适当 的 修改 。 

月 销售 周期 快照 表 存 储 的 是 某 月 某 产 品 汇总 的 销售 数量 和 销售 金 
额 ， 表 中 有 月 份 代理 键 、 产 品 代 理 键 、 销 售 金额 、 销 售 数 量 4 个 字段 。 
由 于 迟到 事实 的 出 现 ， 需 要 将 事务 事实 表 中 的 数据 划分 为 三 类 : JRR 
到 的 事实 记录 ; 迟到 的 事实 ， 但 周期 快照 表 中 尚 不 存在 相关 记录 ; iR 
到 的 事实 ， 并 且 周 期 快照 表 中 已 经 存在 相关 记录 。 对 这 三 类 事实 数据 
的 处 理 逻 辑 各 不 相同 ， 前 两 类 数据 需要 汇总 后 插入 快照 表 ， 而 第 三 种 
情况 需要 更 新 快照 表 中 的 现 有 数据 。 下 面 我 们 对 修改 后 的 
month_sum.sql 文 件 分 解说 明 。 


- 设置 变量 以 支持 事务 


Set 


hive.support.concurrency-true 


了 
set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanag 
er; 
set 


hive.compactor.initiator.on-true 


了 

set 
hive.compactor.worker.threads-1; 

use 


dw; 
set 


hivevar:pre month date - add months(current date 


sd 


开始 部 分 很 简单 ， 只 是 设置 支持 事务 的 环境 ， 并 将 上 月 的 某 个 给 
定 日 期 赋值 给 一 个 变量 。 


drop table if exists tmp; 
create table tmp as 
select a.order month sk order month sk, 
a.product sk product sk, 
a.month order amount + b.order amount 
month order amount, 
a.month order quantity + b.order quantity 
month order quantity 
from month end sales order fact a, 


(select d.month sk month sk, 
a.product sk product sk, 
sum(order amount) order amount, 
sum(order quantity) order quantity 
from sales order fact a, 
order date dim b, 
entry date dim 
month dim d 
a.order date sk - b.order date sk 
and a.entry date sk - c.entry date sk 
and c.month = month($([hivevar:pre month datej) 
and c.year = year($(hivevar:pre month date?) 
b 
b 


i?) 


了 


where 


and b.month = d.month 
and b.year - d.year 
and b.order date «» c.entry date 
group by d.month sk , a.product sk) b 
where a.product sk - b.product sk 
and a.order month sk - b.month sk; 


delete from month end sales order fact 
where exists 
(select 1 
from tmp t2 
where month end sales order fact.order month sk - 
t2.0rder month sk 
and month end sales order fact.product sk - 

t2.product sk); 


insert into month end sales order fact select * from tmp; 


按 事务 发 生 时 间 的 先后 顺序 ， 我 们 先 处 理 第 三 种 情况 。 为 了 更 新 
周期 快照 表 数 据 ， 需 要 创建 一 个 临时 表 。 子 查询 用 于 从 销售 订单 事实 
表 中 获取 所 有 上 个 月 录入 的 ， 并 且 是 迟到 的 数据 行 的 汇总 ， 用 
b.order_date <> c.entry_date 作 为 判断 迟到 的 条 件 。 本 示例 中 实际 可 以 
去 掉 这 条 判断 语句 ， 因 为 只 有 人 述 到 事实 会 对 已 有 的 快照 数据 造成 影 
响 。 外 层 查 询 把 具有 相同 产品 代理 键 和 月 份 代理 键 的 迟到 事实 的 汇总 
数据 加 到 已 有 的 快照 数据 行 上 ， 临 时 表 中 存储 这 个 查询 的 结果 。 注 意 
产品 代理 键 和 月 份 代理 键 共同 构成 了 周期 快照 表 的 逻辑 主键 ， 可 以 唯 
一 标识 一 条 记录 ; 之 后 使 用 先 删除 再 插入 的 方式 更 新 周期 快照 表 。 从 
周期 快照 表 删 除数 据 的 操作 也 是 以 逻辑 主键 匹配 作为 过 滤 条 件 。 


in 


sert into 


month end sales order fact 


se 


lect 


d.month sk, a.product sk, sum 


(order amount), sum 


(0 


rder quantity) 
from 


sales order fact a, 
order date dim b, 
entry date dim c, 


month dim d 


where 


a. 


C. 


order date sk 
and 


.entry date sk 
and 


month 


month 


b.order date sk 


c.entry date sk 


(S(hivevar:pre month date)) 


C 


and 


year 


year 


($(hivevar:pre month date?) 


b 


and 


.month 


d.month 


and 


year 


= d.year 


and not exists 
(select 


1 
from 


month end sales order fact p 
where 


p.order month sk - d.month sk 
and 


p.product sk - a.product sk) 
group by 


d.month sk , a.product sk; 


上 面 这 条 语句 将 第 一 、 二 类 数据 统一 处 理 。 使 用 相关 子 查询 获取 
所 有 上 个 月 新 录入 的 ， 并 且 在 周期 快照 事实 表 中 尚未 存在 的 产品 销售 
月 汇总 数据 ， 插 入 到 周期 快照 表 中 。 销 售 订 单 事实 表 的 粒度 是 每 天 ， 
而 周期 快照 事实 表 的 粒度 是 每 月 ， 因 此 必须 使 用 订单 日 期 代理 键 对 应 
的 月 份 代理 键 进行 比较 。 


4. 测试 

(1) 把 销售 订单 事实 表 的 entry_date_sk 字 段 修改 为 order_date_sk 
字段 的 值 。 这 些 登 记 日 期 键 是 后 面 测 试 月 快照 数据 装载 所 需要 的 。 

(2) 在 执行 定期 装载 脚本 前 先 查询 周期 快照 事实 表 和 销售 订单 事 
实 表 。 之 后 可 以 对 比 “ 前 ”( 不 包含 返 到 事实 ) “后 ”( 包 含 了 迟到 事 
实 ) 的 数据 ， 以 确认 装载 的 正确 性 。 

(3) 准备 销售 订单 测试 数据 。 例 如 ， 可 以 在 销售 订单 源 数据 表 中 
插入 三 个 新 的 订单 记录 ， 第 一 个 是 迟到 的 订单 ， 并 且 销 售 的 产品 在 周 


期 快照 表 中 已 经 存在 ， 第 二 个 也 是 迟到 的 订单 ， 但 销售 的 产品 在 周期 
快照 表 中 不 存在 ; 第 三 个 是 非 迟 到 的 正常 订单 。 这 里 需要 注意 ， 产 品 
维度 是 SCD2 处 理 的 ， 所 以 在 添加 销售 订单 源 数 据 时 ， 新 增订 单 时 间 一 
定 要 在 产品 维度 的 生效 与 过 期 时 间 区 间 内 。 


(4) 执行 新 的 月 周期 快照 数据 装载 脚本 前 ， 先 执行 每 天 定期 装载 
脚本 regular_etl.sh， 把 三 条 新 的 订单 数据 装载 进 事 务 事 实 表 。 


(5) 执行 月 周期 快照 事实 表 装 载 脚本 month_sum.sql 装 载 快照 数 
据 。 


(6) 执行 与 第 (2) 步 相同 的 查询 获取 包含 了 迟到 事实 的 月 底 销 
售 汇总 数据 ， 对 比 “前 “后 ”查询 的 结果 ， 确 认 数 据 装载 正确 。 


在 本 示例 中 ， 述 到 事实 对 月 周期 快照 表 数 据 的 影响 逻辑 并 不 是 很 
复杂 。 当 逻辑 主键 ， 即 月 份 代理 键 和 产品 代理 键 的 组 合 匹 配 时 ， 将 从 
销售 订单 事实 表 中 获取 的 销售 数量 和 销售 金额 汇总 值 累加 到 月 周期 快 
照 表 对 应 的 数据 行 上 ， 否 则 将 新 的 汇总 数据 添加 到 月 周期 快照 表 中 。 
这 个 逻辑 非常 适合 使 用 merge into 语 句 ， 例 如 在 Oracle 中 ， 
month_sum.sql 文 件 可 以 写成 如 下 的 样子 : 


declare 

pre month date date; 
monthi int; 

year1 int; 


begin 
select add months(sysdate,-1) into pre month date from dual; 
select extract(month from pre month date), 
extract(year from pre month date) 
into monthi, yeart 
from dual; 


merge into month end sales order fact t1 

using (select d.month sk month sk, 
a.product sk product sk, 
sum(order amount) order amount, 
sum(order quantity) order quantity 


from sales order fact a, 
order date dim 
entry date dim 
month dim d 


Oo 
~ ~ 


where a.order date sk = b.order date sk 
and a.entry date sk = c.entry date sk 
and c.month = monthi 
and c.year = year1 
and b.month - d.month 


and b.year - d.year 
group by d.month sk , a.product sk) t2 
on ( tií.order month sk = t2.month sk 
and ti.product sk = t2.product sk) 
when matched then 
update set 
ti.month order amount = ti1.month order amount + 
t2.o0rder amount, 
ti.month order quantity = ti.month order quantity + 
t2.o0rder quantity 
when not matched then 
insert 
(order month sk, product sk, month order amount, 
month order quantity) 
values 
(t2.month sk, t2.product sk, t2.order amount, 
t2.o0rder quantity); 


commit; 


end; 
/ 


Hive 文 档 中 说 从 2.2 版 本 开始 支持 merge into 语 句 ， 但 似乎 还 是 计划 


中 ， 目前 并 没有 FH. 可 以 参考 
https://issues.apache.org/jira/browse/HIVE-10924 的 说 明 。 


11.6 ”累积 度量 


累积 度量 指 的 是 聚合 从 序列 内 第 一 个 元 素 到 当前 元 素 的 数据 ， 例 
如 统计 从 每 年 的 一 月 到 当前 月 份 的 累积 销售 额 。 本 节 说 明 如 何在 销售 
订单 示例 中 实现 累积 月 销售 数量 和 金额 ， 并 对 数据 仓库 模式 、 初 始 装 


载 、 定 期 装载 脚本 做 相应 的 修改 。 累 积 度量 


台 装 载 比 前 面 实现 的 要 复杂 。 


1. 修改 模式 


建立 一 个 新 的 名 为 month_end_balance_fact 的 事实 表 ， 用 来 存储 销 
ir td ig en 
成 了 另 一 个 星 型 模式 。 新 的 星 型 模式 除了 包括 这 个 新 的 事实 表 ， 还 
括 两 个 其 他 星 型 模式 中 已 有 的 维度 表 ， 即 产品 


图 11-4 显 示 了 新 的 模式 。 注 意 这 里 只 显示 了 相关 的 表 。 


month end balance fact 


<pi,fil> «M» 
product sk <pi, fi2> «M5 
month end amount balance 
month end quantity balance 


T 


product dim 


a 


是 半 可 加 的 ， 而 且 它 的 初 


niE IE X EH "uem 


roduct sk 
product code 
product name 


version 


expiry date 


product category 


effective date 


i 4b month dim 


month sk 


month 
month name 


quarter 
year 


下 面 的 脚本 用 于 创建 month_end_balance_fact 表 。 


USe 


dw; 
create table 


campaign session 


pi» 


图 11-4 累积 的 度量 


month end balance fact ( 


month sk int 


product sk int 


month end amount balance decimal 


(10,2), 
month end quantity balance int 


); 
为 对 此 事实 表 只 有 insert ... selecti F, i update. delete íT 


级 更 新 需求 ， 所 以 这 里 没有 用 ORC 文 件 格式 ， 而 是 采用 了 默认 的 文本 
存储 格式 。 


2. 初始 装载 


现在 要 把 month end sales order fact 表 里 的 数据 装载 进 
month end balance fact x » 下面 显示 了 初始 装载 
month_end_balance_fact 表 的 脚本 。 此 脚本 委 载 累积 的 月 销售 订单 汇总 
数据 ， 从 每 年 的 一 月 累积 到 当月 ， 累 积 数据 不 跨 年 。 


USe 


dw; 
insert 


overwrite table 


month end balance fact 
select 


a.month sk, 
b.product sk, 
sum 


(b.month order amount) month order amount, 
sum 


(b.month order quantity) month order quantity 
from 


month dim a, 
(select 
b.year 


b.month 


max 


(a.order month sk) over () max month sk 
from 


month end sales order fact a, month dim b 
where 


a.order month sk - b.month sk) b 
where 


a.month sk «- b.max month sk 
and 


a.year 


b.year and 
b.month 


«- a.month 


group by 


a.month sk , b.product sk; 


子 查询 获取 month_ end_sales_order fact 表 的 数据 ， 及 其 年 月 和 最 
大 月 份 代 理 键 。 外 层 查 询 汇总 每 年 一 月 到 当月 的 累积 销售 数据 ， 
a.month sk <= b.max_month_sk 条 件 用 于 限定 只 统计 到 现存 的 最 大 月 份 
为 止 。 


在 关系 数据 库 中 ， 出 于 性 能 方面 的 考虑 ， 此 类 需求 往往 使 用 自 连 
接 查询 方法 ， 而 不 用 这 种 子 查询 的 方式 。 但 是 在 Hive 中 ， 子 查询 是 唯 
一 的 选择 ， 原 因 有 两 个 : 第 一 ，Hive 中 两 个 表 join 连 接 时 ， 不 支持 关联 
字段 的 非 相 等 操作 ， 而 累积 度量 需求 显然 需要 类 似 <= 的 比较 条 件 ， 当 
join 中 有 非 相 等 操作 时 ， 会 报 “Both left and right aliases encountered in 
JOIN ...” 错 误 。 第 二 ， 如 果 是 内 连接 ， 我 们 可 以 将 <= 比 较 放 到 where 子 
句 中 ， 避 开 Hive 的 限制 。 但 是 这 不 适合 累积 度量 的 场景 。 假 设 有 产品 1 
在 一 月 有 销售 ， 二 月 没有 销售 ， 那 么 产品 1 在 二 月 的 累积 销售 值 应 该 从 
一 月 继承 。 而 如 果 使 用 内 连接 ， 用 a.product_sk=b.product_sk 做 连接 条 
件 ， 会 过 滤 掉 产 品 1 在 二 月 的 累积 数据 行 ， 这 显然 是 不 合理 的 。 

为 了 确认 初始 装载 是 否 正确 ， 在 执行 完 初 始 装载 脚本 后 ， 分 别 查 
询 month_end_sales_order_fact 和 month_end_balance_fact 表 ， 我 们 示例 
的 查询 语句 和 结果 如 下 所 示 。 


-- 周期 快照 

use dw; 

select b.year year, 

b.month month, 

a.product sk psk, 

a.month order amount amt, 

a.month order quantity qty 
from month end sales order fact a, 

month dim b 
where a.order month sk - b.month sk 
cluster by year, month, psk; 


4------- R-------- 4------ 4-------- 4------- +--+ 
year | month psk amt qty | 
4------- 4-------- 4------ 4-------- 4------- +--+ 
2016 |) 16 1 28974 NULL | 
2016 | 6 2 55060 NULL | 

2016 | 6 3 4945 38 
204629] 07 1 54017 463 
2016 | 7 2 57457 352 
2016 | 7 4 45290 205 
2016. 11557 5 46082 272 | 
+------- +-------- +------ +-------- +------- +--+ 
-- 累积 度量 
use dw; 
select b.year year, 
b.month month, 
a.product sk psk, 
a.month end amount balance amt, 
a.month end quantity balance qty 
from month end balance fact a, 
month dim b 
where a.month sk - b.month sk 
cluster by year, month, psk; 
+ 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 4------ + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 +--+ 
| year | month | psk amt | gry "| 
+------- +-------- +------ +--------- +------- +--+ 
[P2006 ia I a 28974 | NULL | 
122016 [56 E 55060 | NULL | 
[52016 a || i 4945 | 38 
[20265 57 If, at 82991 | 463 
lL aw: 057 [x2 J1p250]7 352 
[m2 03:6 Te ES 4945 | 38 
152916 157 | 4 45290 | 205 
i) AOE |e (5 46082 | 272 
+ 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 +--+ 


可 以 看 到 ，2016 年 6 月 的 商品 销售 金额 和 数量 被 累积 到 了 2016 年 7 
月 。 产 品 1 和 2 累加 了 6、7 两 个 月 的 销售 数据 ， 产 品 3 在 7 月 没有 销售 ， 
所 以 6 月 的 销售 数据 顺延 到 7 月 ， 产 品 4 和 5 只 有 7 月 有 销售 。 


3。 定 期 装载 


下 面 所 示 的 month_balance_sum.sql 脚 本 用 于 定期 装载 销售 订单 累 
积 度量 ， 每 个 月 执行 一 次 ， 装 载 上 个 月 的 数据 。 可 以 在 执行 完 月 周期 
快照 表 定 期 装载 后 执行 该 脚本 。 


-- 设置 变量 以 支持 事务 
set 


hive.support.concurrency-true 


/ 

set 
hive.exec.dynamic.partition.mode 

-nonstrict; 


set 


hive.txn.manager-org.apache.hadoop.hive.ql.lockmgr.dbtxnmanag 
er; 
set 


hive.compactor.initiator.on-true 


/ 

set 
hive.compactor.worker.threads-1; 

use 


dw; 
set 


hivevar:pre month date - add months(current date 


, zu 
set 


hivevar:year 
= year 


($(hivevar:pre month date); 


set 

hivevar :month 

= month 
($(hivevar:pre month date}); 
insert into 


month end balance fact 
select 


order month sk, 
product sk, 
sum 


(month order amount), 
sum 


(month order quantity) 
from 


(select 


a * 
from 


month end sales order fact a, 
month dim b 
where 


a.order month sk - b.month sk 
and 


b.year 


${hivevar : year 


and 
b.month 


= $(hivevar:month 


j 


union all 


select 
month sk + 1 order month sk, 
product sk product sk, 
month end amount balance month order amount, 
month end quantity balance 
month order quantity 
from 


month end balance fact a 
where 


a.month sk in 
(select max(case when 


$(hivevar:month 
} = 1 then 

0 else 

month_sk end 


) 


from 


month_end_balance_fact)) t 
group by 


order_month_sk, product_sk; 


子 查 询 将 累积 度量 表 和 月 周期 快照 表 做 并 集 操作 ， 增 加 上 月 的 累 
积 数据 。 最 外 层 碍 询 执行 销售 数据 按 月 和 产品 的 分 组 聚合 。 最 内 层 的 
case 语 句 用 于 在 每 年 一 月 时 重新 归 零 再 累积 。 


4. 测试 定期 装载 


使 用 下 面 步 又 测试 非 1 月 的 装载 : 


(1) 执行 下 面 的 命令 向 month end sales order fact 表 添加 两 条 
录 。 


insert into 


dw.month end sales order fact 
values 


(200, 1, 1000, 10), (200, 6, 1000, 10) ; 


(2) 设置 时 间 , 将 set hivevarpre month date 
add months(current date,-1); 47 改 为 set hivevar:pre month date 
current_date;， 装 载 2016 年 8 月 的 数据 。 


(3) 执行 定期 装载 。 


beeline -u jdbc:hive2://cdh2:10000/dw -f 
month balance sum.sql 


(4) *i8month end balance fact 表 ， 确 认 累 积 度量 数据 装载 正 
确 。 
使 用 下 面 步骤 测试 1 月 的 装载 : 


(1) 使 用 下 面 的 命令 向 month_end_sales_order_fact 表 添加 两 条 记 
录 ，month_sk 的 值 是 205， 指 的 是 2017 年 1 月 。 


insert into 
dw.month end sales order fact values 


(205,1,1000, 10); 
insert into 


dw.month end sales order fact values 
(205,6,1000,10); 


(2) 使 用 下 面 的 命令 向 month end balance fact 表 添加 三 条 记 
录 。 


insert into 
dw.month end balance fact values 


(204,1,1000, 10); 
insert into 


dw.month end balance fact values 


(204,6,1000, 10); 
insert into 


dw.month end balance fact values 
(204, 3,1000, 10); 
(3) 将 set hivevar:pre month date = add months(current. date,-1); 


行 改 为 set hivevar:pre month date = add_months('2017-02-01',-1);, X 
载 2017 年 1 月 的 数据 。 


(4) 执行 定期 装载 。 


beeline -u jdbc:hive2://cdh2:10000/dw -f 
month balance sum.sql 


(5) 查询 month_end_balance_fact 表 ， 确 认 累 积 度量 数据 装载 正 
确 。 


测试 完成 后 ， 执 行 下 面 的 语句 删除 测试 数据 。 


delete from 
dw.month end sales order fact where 


order month sk >=200; 
insert 


overwrite table 


month end balance fact 


select * from 
month end balance fact where 


month sk « 200; 
5. 查询 


累积 度量 必须 要 小 心 使 用 ， 因 为 它 是 “ 半 可 加 ”的 。 一 个 半 可 加 度 
量 在 某 些 维度 (通常 是 时 间 维 度 ) 上 是 不 可 加 的 。 例 如 ， 可 以 通过 产 
品 正确 地 累加 月 底 累 积 销售 金额 。 


select product name, sum(month end amount balance) s 
from month end balance fact a, 
product dim b 
where a.product sk = b.product sk 
group by product name; 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 p--------- +--+ 
| product name | S | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4--------- +--+ 
| Flat Panel | 45290 | 
| Floppy Drive ev 
| Hard Disk Drive | 111965 | 
| Keyboard | 46082 | 
| LCD Panel | 9890 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4--------- +--+ 


而 通过 月 份 累加 月 底 金 额 : 


select year, month, sum(month end amount balance) s 
from month end balance fact a, 
month dim b 
where a.month sk - b.month sk 
group by year, month 
cluster by year, month; 


4------- 4-------- 4--------- +--+ 
| year | month | S | 

二 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 +--+ 
| 2016 | 6 | 88979 

Peele ay ey: | 291825 | 
4------- + 一 一 一 一 一 一 一 一 4------ 十 一 一 十 一 一 十 


以 上 查询 结果 是 错误 的 。 正 确 的 结果 应 该 和 下 面 的 在 
month_end_sales_order_fact 表 上 进行 的 查询 结果 相同 。 


select product name, sum(month order amount) s 
from month end sales order fact a, 
product dim b 
where a.product sk - b.product sk 
group by product name; 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 +--+ 
| product_name | S | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 十 一 一 十 
| Flat Panel | 45290 | 
| Floppy Drive | 212517 | 
| Hard Disk Drive | 82991 | 
| Keyboard | 46082 | 
| LCD Panel | 4945 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 +--+ 


11.7 “小 结 


(1) 事务 事实 表 、 周 期 快照 事实 表 和 累积 快照 事实 表 是 多 维 数据 
仓库 中 常见 的 三 种 事实 表 。 定 期 历史 数据 可 以 通过 周期 快照 获取 ， 细 
节 数 据 被 保存 到 事务 粒度 事实 表 中 ， 而 对 于 具有 多 个 定义 良好 里 程 碑 
的 处 理工 作 流 ， 则 可 以 使 用 累积 快照 。 


(2) 无 事实 的 事实 表 是 没有 任何 度量 的 事实 表 ， 它 本 质 上 是 一 组 
维度 的 区 集 。 用 这 种 事实 表 记 录 相 关 维 度 之 间 存 在 多 对 多 关系 ， 但 是 
关系 上 没有 数字 或 者 文本 的 事实 。 无 事实 的 事实 表 为 数据 仓库 设计 提 
供 了 更 多 的 灵活 性 。 


(3) 迟到 的 事实 指 的 是 到 达 ETL 系 统 的 时 间 晚 于 事务 发 生 时 间 | 的 
度量 数据 。 必 须 对 标准 的 ETL 过 程 进行 特殊 修改 以 处 理 迟 到 的 事实 。 
需要 确定 事务 发 生 时 间 点 的 有 效 的 维度 代理 键 ， 还 要 调整 后 续 事 实行 
中 的 所 有 半 可 加 度量 。 此 外 ， 述 到 的 事实 可 能 还 会 引起 周期 快照 事实 
表 的 数据 更 新 。 

(4) 累积 度量 指 的 是 聚合 从 序列 内 第 一 个 元 素 到 当前 元 素 的 数 
据 。 累 积 度量 是 半 可 加 的 ， 因 此 对 累积 度量 执行 聚合 计算 时 要 格外 注 
意 分 组 的 维度 。 


第 12 章 
«EVA TAS > 


前 面 两 章 通过 实例 演示 了 常见 的 维度 表 和 事实 表 技 术 ， 主 要 目的 
是 为 了 说 明 Hadoop 及 其 生态 圈 工 具 ， 如 Sqoop、Hive、Oozie 等 ， 完 全 
有 能 力 处 理 传统 多 维 数据 仓库 中 碰 到 的 各 种 情况 。 但 是 ， 从 完整 的 数 
据 仓 库 生 命 周 期 角度 看 ， 还 有 很 重要 的 一 部 分 没有 涉及 ， 那 就 是 数据 
分 析 与 结果 展示 。 我 们 将 在 本 书 的 最 后 两 章 分 别 讨 论 这 两 方面 的 问 


题 。 


本 章 介绍 联机 分 析 处 理 的 概念 ， 以 及 CDH 的 数据 分 析 工 具 
Impala， 然 后 对 比 Hive、SparkSQL、Impala 这 三 种 Hadoop SQL 解决 方 
案 在 用 于 数据 分 析 场 景 时 ， 功 能 与 性 能 上 的 各 自 特点 。 除 了 概念 化 的 
说 明 ， 我 们 还 会 结合 销售 订单 示例 ， 列 举 典 型 的 数据 分 析 问 题 ， 并 使 
用 Impala 工 具 具 体 实 现 。 本 章 最 后 简 述 Apache Kylin 项 目 ， 这 是 由 中 
工程 师 自主 研发 的 一 个 Hadoop 上 的 联机 分 析 处 理 组 件 。 


12.1 联机 分 析 处 理 简介 
12.1.1 概念 


联机 分 析 处 理 又 被 称 为 OLAP ， 是 英文 On-Line Analytical 
Processing 的 缩写 。 此 概念 最 早 由 关系 数据 库 之 父 E.F.Codd 于 1993 年 提 
出 ， 至 今 已 有 20 多 年 。OLAP 人 允许 以 一 种 称 为 多 维 数据 集 的 结构 ， 访 
问 业 务 数 据 源 经 过 聚合 和 组 织 整理 后 的 数据 。 以 此 为 标准 ，OLAP 作 


为 单独 的 一 类 技术 同 联机 事务 处 理 (On-Line Transaction Processing, 
OLTP) 得 以 明显 区 分 。 


在 计算 领域 ，OLAP 是 一 种 快速 应 答 多 维 分 析 碍 询 的 方法 ， 也 是 
商业 智能 的 一 个 组 成 部 分 ， 与 之 相关 的 概念 还 包括 数据 仓库 、 报 表 系 
统 、 数 据 挖 掘 等 。 数 据 仓 库 用 于 数据 的 存储 和 组 织 ，OLAP 集 中 于 数 
据 的 分 析 ， 数 据 挖掘 则 致力 于 知识 的 自动 发 现 ， 报 表 系 统 则 侧重 于 数 
据 的 展现 。OLAP 系 统 从 数据 仓库 中 的 集成 数据 出 发 ， 构 建 面 向 分 析 
的 多 维 数 据 模 型 ， 再 使 用 多 维 分 析 方 法 从 多 个 不 同 的 视角 对 多 维 数据 
集合 进行 分 析 比 较 ， 分 析 活 动 以 数据 驱动 。 通 过 使 用 OLAP 工 具 ， 用 
户 可 以 从 多 个 视角 交互 式 地 查询 多 维 数据 。 

OLAP 由 三 个 基本 的 分 析 操 作 构 成 : 合并 EE). FAM 

。 合 并 是 措 数 据 的 聚合 ， 即 数据 可 以 在 一 个 或 多 个 维度 上 进行 累积 
和 计算 。 例 如 ， 所 有 的 营业 部 数据 被 上 卷 到 销售 部 门 以 分 析 销 售 趋 
势 。 下 钻 是 一 种 由 汇总 数据 向 下 浏览 细节 数据 的 技术 。 比 如 用 户 可 以 
从 产品 分 类 的 销售 数据 下 钻 碍 看 单个 产品 的 销售 情况 。 切 片 则 是 这 样 
一 种 特性 ， 通 过 它 用 户 可 以 获取 OLAP 立 方 体 中 的 特定 数据 集合 ， 并 
从 不 同 的 视角 观察 这 些 数 据 。 这 些 观察 数据 的 视角 就 是 我 们 所 说 的 维 
度 。 例 如 通过 经 销 商 、 日 期 、 客 户 、 产 品 或 区 域 等 ， 碍 看 同一 销售 事 
实 。 


OLAP 系 统 的 核心 是 OLAP 立 方 体 ， 或 称 为 多 维 立 方 体 或 超 立 方 
体 。 它 由 被 称 为 度量 的 数值 事实 组 成 ， 这 些 度量 被 维度 划分 归 类 。 一 
个 OLAP 立 方 体 的 例子 如 图 12-1 所 示 ， 数 据 单元 位 于 立方 体 的 交叉 点 
上 ， 每 个 数据 单元 跨越 产品 、 时 间 、 地 区 等 多 个 维度 。 通 常 使 用 一 个 
矩阵 接口 操作 OLAP 立 方 体 ， 例 如 电子 表格 程序 的 数据 透视 表 ， 可 以 
按 维度 分 组 执行 聚合 或 求 平均 值 等 操作 。 立 方 体 的 元 数据 一 般 由 关系 
数据 库 中 的 星 型 模式 或 雪花 模式 生成 ， 度 量 来 自 事实 表 的 记录 ， 维 度 
来 自 维度 表 。 


时 间 
图 12-1 OLAP3iLZ fA 


12.1.2 分 类 


通常 可 以 将 联机 分 析 处 理 系 统 分 为 MOLAP、ROLAP、HOLAP 三 
种 类 型 。 


1. MOLAP 


MOLAP (multi-dimensional online analytical processing) 是 一 种 典 
型 的 OLAP 形 式 ， 甚 至 有 时 就 被 用 来 表示 OLAP。MOLAP 将 数据 存储 
在 一 个 经 过 优化 的 多 维 数 组 中 ， 而 不 是 存储 在 关系 数据 库 中 。 某 些 
MOLAP 工 具 要 求 预先 计算 并 存储 计算 后 的 结果 数据 ， 这 种 操作 方式 被 
称 为 预 处 理 。MOLAP 工 具 一 般 将 预计 算 后 的 数据 集合 作为 一 个 数据 立 
方 体 使 用 。 对 于 给 定 范 围 的 问题 ， 立 方 体 中 的 数据 包含 所 有 可 能 的 答 
案 。 E E Le om 快速 的 响应 。 然 而 另 一 方 
面 ， 依 赖 于 预计 算 的 聚合 程度 ， 装 载 新 数据 可 能 会 花费 很 长 的 时 间 。 
另外 还 有 些 MOLAP 工 具 ， 尤 其 是 那些 实现 了 某 些 数据 库 功 能 的 
MOLAP 工 具 ， 并 不 预先 计算 原始 数据 ， 而 是 在 需要 时 才 进 行 计算 。 


MOLAP 的 优点 : 


。 优化 的 数据 存储 、 多 维 数据 索引 和 缓存 带 来 的 快速 查询 性 能 。 

。 相对 于 关系 数据 库 ， 可 以 通过 讨 缩 技术 ， 使 数据 存储 只 需 更 小 
的 磁盘 空间 。 

。 MOLAP 工 具 一 般 能 够 自动 进行 高 级 别 的 数据 聚合 。 

。 对 于 低 基 数 维度 的 数据 集合 是 紧凑 的 。 

。 效 组 模型 提供 了 原生 的 索引 功能 。 


MOLAP 的 缺点 : 


。 某 些 MOLAP 解 决 方案 中 的 处 理 步 又 可 能 需要 很 长 的 时 间 ， 尤 其 
是 当 数 据 量 很 大 时 。 要 解决 这 个 问题 ， 通 常 只 能 增 量 处 理 变 化 
的 数据 ， 而 不 是 预 处 理 整 个 数据 集合 。 

。 可 能 引入 较 多 的 数据 元 余 。 

MOLAP 产 品 : 


商业 的 MOLAP 产 品 主 要 有 Cognos Powerplay、 Oracle Database 
OLAP Option, MicroStrategy. Microsoft Analysis Services, Essbase 
等 。 


2. ROLAP 


ROLAP 和 直接 使 用 关系 数据 库存 储 数据 ， 不 需要 执行 预计 算 。 基 础 
的 事实 数据 及 其 维度 表 作 为 天 系 表 被 存储 ， 而 聚合 信息 存储 在 新 创建 
的 附加 表 中 。ROLAP 以 数据 库 模 式 设计 为 基础 ， 操 作 存 储 在 天 系 效 据 
库 中 的 数据 ， 实 现 传统 的 OLAP 数 据 切 片 和 分 块 功能 。 本 质 上 讲 ， 每 
种 数据 切片 或 分 块 行为 都 等 同 于 在 SQL 语 句 中 增加 一 个 “WHERE” 子 句 
的 过 滤 条 件 。ROLAP 不 使 用 预计 算 的 数据 立方 体 ， 取 而 代 之 的 是 查询 
标准 的 天 系数 据 库 表 ， 返 回回 党 问题 所 需 的 数据 。 与 预计 算 的 MOLAP 
不 同 ，ROLAP 工 具有 能 力 回答 任意 相关 的 数据 分 析 问 题 ， 因 为 该 技术 


不 受 立方 体内 容 的 限制 。 通 过 ROLAP 还 能 够 下 钻 到 数据 库 中 存储 的 最 
细节 的 数据 。 


由 于 ROLAP 使 用 天 系 效 据 库 ， 通 单数 据 库 模式 必须 经 过 仔细 设 
计 。 为 OLTP 应 用 设计 的 数据 库 不 能 直接 作为 ROLAP 数 据 库 使 用 ， 这 
种 投机 取 巧 的 做 法 并 不 能 使 ROLAP 良 好 工作 ， 因 此 ROLAP 仍 然 需要 
创建 额外 的 数据 复制 。 但 不 管 怎样 ，ROLAP 毕 竟 用 的 是 数据 库 ， 各 种 
各 样 的 数据 库 设 计 与 优化 技术 都 可 以 被 有 效 利 用 。 


ROLAP 的 优点 : 


在 处 理 大 量 数据 时 ，ROLAP 更 具 可 伸缩 性 ， 尤 其 是 当 模 型 中 包 
含 的 维度 具有 很 高 的 基数 ， 例 如 ， 维 度 表 中 有 上 百 万 的 成 员 
时 。 

有 很 多 可 选用 的 数据 装载 工具 ， 并 且 能 够 针对 特定 的 数据 模型 
精细 调整 ETL 代 码 ， 数 据 装载 所 需 时 间 通 常 比 自动 化 的 MOLAP 
装载 少 得 多 。 

因为 数据 存储 于 标准 关系 数据 库 中 ， 可 以 使 用 SQL 报表 工具 访 
问 数据 ， 而 不 必 是 专 有 的 OLAP 工 具 。 

ROLAP 更 适合 处 理 非 聚合 的 事实 ， 例 如 文本 型 描述 。 在 
MOLAP 工 具 中 查询 文本 型 元 素 时 性 能 会 相对 较 差 。 

通过 将 数据 存储 从 多 维 模型 中 解 耦 出 来 ， 相 对 于 使 用 严格 的 维 
度 模 型 ， 这 种 更 普通 的 关系 模型 增加 了 成 功 建 模 的 可 能 性 。 
ROLAP 方 法 可 以 利用 数据 库 的 权限 控制 ， 例 如 通过 行 级 安全 性 
设置 ， 可 以 用 事先 设 定 的 条 件 过 滤 查 询 结 果 。 例 如 Oracle 的 
VPD 技 术 ， 能 够 根据 连接 的 用 户 自动 在 查询 的 SQL 语 句 中 拼接 
WHERE 谓词 条 件 。 


ROLAP 的 缺点 : 


业界 普遍 认为 ROLAP 工 具 比 MOLAP 查 询 速 度 慢 。 


。 聚合 表 的 数据 装载 必须 由 用 户 自己 定制 的 ETL 代 码 控制 。 
ROLAP 工 具 不 能 自动 完成 这 个 任务 ， 这 意味 着 要 额外 开发 工作 
Eo 

如 果 跳 过 创建 聚合 表 的 步 又， 查询 性 能 会 大 打折 扣 ， 因 为 不 得 
不 查询 大 量 的 细节 数据 表 。 虽 然 可 以 通过 适当 建立 聚合 表 缓 解 
性 能 问题 ， 但 对 所 有 维度 表 及 其 属性 的 组 合 创 建 聚合 表 是 不 切 
实际 的 。 

ROLAP 依 赖 于 针对 通用 查询 或 缓存 目标 的 数据 库 ， 因 此 并 没有 
提供 某 些 MOLAP 工 具 所 具有 的 特殊 技术 ， 如 透视 表 等 。 但 是 现 
代 ROLAP 工 具 可 以 利用 SQL 语言 中 的 CUBE、ROLLUP 操 作 或 
其 他 SQL OLAP 扩 展 。 随 着 这 些 SQL 扩 展 的 逐步 完善 ，MOLAP 
工具 的 优势 也 不 那么 明显 了 。 

因为 ROLAP 工 具 的 所 有 计算 都 依赖 于 SQL， 对 于 某 些 不 易 转 化 
为 SQL 的 计算 密集 型 模型 ，ROLAP 不 再 适用 。 例 如 包含 预算 、 
拨款 等 条 目的 复杂 财务 报表 或 地 理 位 置 计算 的 场景 。 


ROLAP 产 品 : 


使 用 ROLAP 的 商业 产品 包括 Microsoft Analysis Services 、 
MicroStrategy, SAP Business Objects, Oracle Business Intelligence Suite 
Enterprise Edition, Tableau Software 等 。 也 有 开源 的 ROLAP 服 务 器 ， 
如 Mondrian。 


3. HOLAP 


因为 在 额外 的 ETL 开 发 成 本 与 缓慢 的 查询 性 能 之 间 难 以 选择 ， 现 
在 大 部 分 商业 OLAP 工 具 都 使 用 一 种 混合 型 (Hybrid) 方法 ， 它 允许 模 
型 设计 者 决定 哪些 数据 存储 在 MOLAP 中 ， 哪 些 数据 存储 在 ROLAP 
中 。 除 了 把 数据 划分 成 传统 关系 型 存储 和 专 有 存储 外 ， 业 界 对 混合 型 
OLAP 并 没有 清晰 的 定义 。 例 如 ， 某 些 厂 商 的 HOLAP 数 据 库 不 使 用 关 


系 表 存储 大 量 的 细节 数据 ， 而 是 用 专用 表 保 存 少量 的 聚合 数据 。 
HOLAP 结 合 了 MOLAP 和 ROLAP 两 种 方法 的 优点 ， 可 以 同时 利用 预计 
算 的 多 维 立方 体 和 关系 数据 源 。HOLAP 有 以 下 两 种 划分 数据 的 策略 。 


。 垂直 分 区 。 这 种 模式 的 HOLAP 将 聚合 数据 存储 在 MOLAP 中 ， 
以 支持 良好 的 查询 性 能 ， 而 把 细节 数据 存储 在 ROLAP 中 以 减少 
立方 体 处 理 所 需 时 间 。 

水 平分 区 。 这 种 模式 的 HOLAP 按 数据 热度 划分 ， 将 某 些 最 近 使 
用 的 数据 分 片 存储 在 MOLAP 中 ， 而 将 老 的 数据 存储 在 
ROLAP。 


12.1.3 ”性 能 


OLAP 分 析 所 需 的 原始 数据 量 是 非常 庞大 的 。 一 个 分 析 模 型 ， 往 
往 会 涉及 数 千 万 或 数 亿 条 甚至 更 多 的 数据 ， 而 且 分 析 模 型 中 包含 多 个 
维度 的 数据 ， 这 些 维度 又 可 以 由 用 户 任 意 地 组 合 。 这 样 的 结果 就 是 大 
量 的 实时 运算 导致 过 长 的 响应 时 间 。 想 象 一 个 1000 万 条 记录 的 分 析 模 
型 ， 如 果 一 次 提取 4 个 维度 进行 组 合 分 析 ， 每 个 维度 有 10 个 不 同 的 取 
值 ， 理 论 上 的 运算 次 数 将 达到 10 的 12 次 方 。 这 样 的 运算 量 将 导致 数 十 
分 钟 乃至 更 长 的 等 待 时 间 。 如 果 用 户 对 维度 组 合 次 序 进行 调整 ， 或 增 
加 、 或 减少 某 些 维度 的 话 ， 又 将 是 一 个 重新 计算 过 程 。 


从 上 面 的 分 析 中 可 以 得 出 结论 ， 如 果 不 能 解决 OLAP 运 算 效 率 问 
题 的 话 ，OLAP 将 只 会 是 一 个 没有 实用 价值 的 概念 。 在 OLAP 的 发 展 历 
史 中 ， 常 见 的 解决 方案 是 用 多 维 数 据 库 代替 关系 数据 库 设 计 ， 将 数据 
根据 维度 进行 最 大 限度 地 聚合 运算 ， 运 算 中 会 考虑 到 各 种 维度 组 合 情 
况 ， 运 算 结 果 将 生成 一 个 数据 立方 体 ， 并 保存 在 磁盘 上 ， 用 这 种 预 运 
算 方式 提高 OLAP 的 速度 。 那 么 ， 在 大 数据 流行 的 今天 ， 又 有 什么 产 
品 可 以 解决 OLAP 的 效率 问题 呢 ? 下 面 介 绍 Hadoop 生 态 圈 中 适合 做 
OLAP 的 组 件 : Impala。 


12.2 ”Impala 简 介 


1。Impala 是 什么 


Impala 是 一 个 运行 在 Hadoop 之 上 的 大 规模 并 行 处 理 (MPP) 查询 
引擎 ， 提 供 对 Hadoop 集 群 数 据 的 高 性 能 、 低 延迟 的 SQL 查 询 ， 使 用 
HDFS 作 为 底层 存储 。 对 查询 的 快速 响应 使 交互 式 查询 和 对 分 析 查 询 
的 调 优 成 为 可 能 ， 而 这 些 在 针对 处 理 长 时 间 批 处 理 作业 的 SQL-on- 
Hadoop 传 统 技 术 上 是 难以 完成 的 。Impala 是 Cloudera 公 司 基于 Google 
Dremel 的 开源 实现 。Cloudera 公 司 宣称 除 Impala 外 的 其 他 组 件 都 将 移植 
到 Spark 框 架 ， 并 坚信 Impala 是 大 数据 上 SQL 解决 方案 的 未 来 ， 可 见 其 
对 Impala 的 重视 程度 。 


通过 将 Impala 与 Hive 元 数据 存储 数据 库 相 结合 ， 能 够 在 Impala 与 
Hive 这 两 个 组 件 之 间 共 享 数据 库 表 ; 并 且 Impala 与 HiveQL 的 语法 兼 
容 ， 因 此 既 可 以 使 用 Imnpala， 也 可 以 使 用 Hive 进 行 建立 表 、 发 布 查 
询 、 装 载 数 据 等 操作 。Impala 可 以 在 已 经 存在 的 Hive 表 上 执行 交互 式 
实时 查询 。 


2. 为 什么 要 使 用 Impala 


e Impala 可 以 使 用 SQL 访问 存储 在 Hadoop 上 的 数据 ， 而 传统 的 
MapReduce 则 需要 掌握 Java 技 术 。Impala 还 提供 SQL 直接 访问 
HDFS 文 件 系统 、HBase 数 据 库 系统 或 Amazon S3 的 数据 。 
Impala 在 Hadoop 生 态 系 统 之 上 提供 并 行 处 理 数据 库 技术 ， 人 允许 
用 户 执行 低 延 迟 的 交互 式 查询 。 

Impala 大 都 能 在 几 秒 或 几 分 钟 内 返回 查询 结果 ， 而 相同 的 Hive 
查询 通常 需要 几 十 分 钟 甚 至 几 小 时 完成 。 


。 Impala 的 实时 查询 引擎 非常 适合 对 Hadoop 文 件 系统 上 的 数据 进 
行 分 析 式 查询 。 
由 于 Impala 能 实时 给 出 查询 结果 ， 使 它 能 够 很 好 地 与 Pentaho、 
Tableau 这 类 报表 或 可 视 化 工具 一 起 使 用 ， 并 且 这 些 工具 已 经 配 
备 了 Impala 连 接 器 ， 可 以 从 GUI 直接 执行 可 视 化 查询 。 
Impala 与 Hadoop 生 态 圈 相 结合 ， 内 置 对 大 多 数 Hadoop 文 件 格式 
的 支持 (但 还 不 支持 ORC 格 式 ) ， 这 意味 着 可 以 使 用 Hadoop 上 
的 各 种 解决 方案 存储 、 共 享 和 访问 数据 ， 同 时 避免 了 数据 竖 
井 ， 并 且 降 低 了 数据 迁移 的 成 本 。 
Impala 默 认 使 用 Parquet 文 件 格式 ， 这 种 列 式 存储 对 于 典型 数据 
仓库 场景 下 的 大 查询 是 较为 高 效 的 。 

Impala 之 所 以 使 用 Parquet 文 件 格 式 ， 最 初 灵 感 来 自 于 Google 2010 
年 发 表 的 Dremel 论 文 ， 文 中 论述 了 对 大 规模 查询 的 优化 。Parquet 是 一 
种 列 式 存 储 ， 它 不 像 普 通 数 据 仓库 那样 水 平 存 储 数据 ， 而 是 垂直 存储 
数据 。 当 查询 在 数值 列 上 应 用 聚合 水 数 时 ， 这 种 存储 方式 将 带 来 巨大 
的 性 能 提升 ， 原 因 是 只 需要 读 取 文件 中 该 列 的 数据 ， 而 不 是 像 传统 行 
式 表 需 要 读 取 整 个 数据 集 。Parquet 文 件 格式 支持 多 种 压缩 编码 方式 ， 
例如 Hadoop 和 Hive 默 认 使 用 的 snappy 压 缩 等 ，Parquet 文 件 也 可 用 Hive 
和 Pig 处 理 。 


3。 适 合 Impala 的 使 用 场景 


。 需要 低 延 迟 得 到 碍 询 结果 。 
。 快速 分 析 型 查询 。 
。 实时 查询 。 


总 而 言 之 ，Impala 非 常 适 合 OLAP 类 型 的 查询 需求 。 


4. Impala 架 构 


Impala 架 构 如 图 12-2 所 示 。Impala 服 务 器 是 一 个 分 布 式 、 大 规模 并 
行 处 理 数据 库 引 擎 。 它 由 不 同 的 守护 进程 组 成 ， 每 种 守护 进程 运行 在 
Hadoop 集 群 中 的 特定 主机 上 。 其 中 Impalad、 Statestored、Catalogd 三 个 
守护 进程 在 其 架构 中 扮演 主要 角色 。 


图 12-2 Impala 架构 


(1) Impala 守 护 进 程 


Impala 的 核心 组 件 是 一 个 运行 在 集群 中 每 个 数据 节点 上 的 守护 进 
程 ， 物 理 表现 为 impalad 进 程 。 该 进程 读 写 数据 文件 ， 接 收 从 impala- 
shell 命令 行 、Hue、JDBC、ODBC 提 交 的 查询 请 求 ， 将 查询 工作 并 行 
分 布 到 集群 的 数据 节点 上 ， 并 将 查询 的 中 间 结 果 返 回 给 中 心 协 调节 
点 


"WO 


可 以 将 查询 提交 至 任意 一 个 数据 节点 上 运行 的 Impala 守 护 进程 ， 
此 守护 进程 实例 担任 该 查询 的 协调 器 ， 其 他 节点 提交 部 分 中 间 结 果 返 
给 协调 器 ， 协 调 器 构建 查询 的 最 终结 果 集 。 当 在 试验 环境 使 用 impala- 
shell 命 令 行 运行 SQL 时 ， 出 于 方便 性 ， 通 党 总 是 连接 同一 个 Impala 守 
护 进程 。 而 在 生产 环境 负载 的 集群 中 ， 可 以 采用 循环 的 方式 ， 通 过 


JDBC 或 ODBC 接 口 ， 将 每 个 查询 轮流 提交 至 不 同 的 Impala 守 护 进程 ， 
以 达到 负载 均衡 。 

Impala 守 护 进 程 持续 与 statestore 进 行 通信 ， 以 确认 每 个 节点 的 健 
康 状 况 以 及 是 否 可 以 接收 新 的 任务 。 当 集群 中 的 任何 Impala 节 点 建 
立 、 人 修改、 删除 任何 类 型 的 对 象 ， 或 者 通过 Impala 处 理 一 个 insert 或 
load data 语 句 时 ，catalogd 守 护 进 程 (Impala 1.2 引 入 ) 都 会 发 出 广播 消 
息 。Impala 守 护 进程 会 接收 这 种 从 catalogd 守 护 进 程 发 出 的 广播 消息 。 
这 种 后 台 通 信 减 少 了 对 refresh 或 invalidate metadata 语 句 的 需要 ， 而 在 
Impala 1.2 版 本 前 ， 这 些 语句 被 用 于 在 节点 间 协 调 元 数据 信息 。 


(2) Impala Statestore 


叫做 Statestore 的 Impala 组 件 检查 集群 中 所 有 数据 节点 上 Impala 守 护 
进程 的 健康 状况 ， 并 将 这 些 信 息 持续 转发 给 每 个 Impala 守 护 进程 。 其 
物理 表现 为 一 个 名 为 statestored 的 守护 进程 ， 该 进程 只 需要 在 集群 中 的 
一 台 主 机 上 启动 。 如 果 Impala 守 护 进 程 由 于 硬件 、 软 件 、 网 络 或 其 他 
原因 失效 ，Statestore 会 通知 所 有 其 他 的 Impala 守 护 进 程 ， 这 样 以 后 的 
查询 就 不 会 再 向 不 可 到 达 的 节点 发 出 请 求 。 


Statestore 的 目的 只 是 在 发 生 某 种 错误 时 提供 帮助 ， 因 此 在 正常 操 
作 一 个 Impala 集 群 时 ， 它 并 不 是 一 个 关键 组 件 。 即 使 Statestore 没 有 运 
行 或 者 不 可 用 ，Impala 守 护 进 程 依然 会 运行 ， 并 像 平常 一 样 在 它们 中 
分 发 任务 。 这 时 如 果 一 个 Impala 守 护 进程 失效 ， 仅 仅 是 降低 了 集群 的 
鲁 棒 性 。 当 Statestore 恢 复 可 用 后 ， 它 会 重建 与 Impala 守 护 进 程 之 间 的 
通信 并 恢复 监控 功能 。 

在 Impala 中 ， 所 有 负载 均衡 和 高 可 用 的 考虑 都 是 应 用 于 impalad 守 
护 进程 的 。statestored 和 catalogd 进 程 没有 高 可 用 的 需求 ， 因 为 这 些 进 
程 即使 出 现 问题 也 不 会 引起 数据 丢失 。 当 这 些 进程 由 于 所 在 的 主机 停 
机 而 变 成 不 可 用 时 ， 可 以 这 样 处 理 : 先 停止 Impala 服 务 ， 然 后 删除 


Impala StateStore 和 Impala Catalog 服 务 器 角色 ， 再 在 另 一 台 主 机 上 添加 
这 两 个 角色 ， 最 后 重启 Impala 服 务 。 


(3) Impala Catalog 服 务 


称 为 Catalog 服 务 的 Impala 组 件 将 Impala SQL 语句 产生 的 元 数据 改 
变 转发 至 集群 中 的 所 有 数据 节点 。 其 物理 表现 为 一 个 名 为 catalogd 的 守 
护 进程 ， 该 进程 只 需要 在 集群 中 的 一 台 主 机 上 启动 ， 而 且 应 该 与 
statestored 进 程 部 署 在 同一 台 主 机 上 。 


由 于 Catalog 服 务 的 存在 ， 当 执行 Inpala SQL 语句 而 改变 元 数据 
时 ， 不 需要 再 发 出 refresh 或 invalidate metadata 语 句 。 然 而 ， 当 通过 Hive 
执行 建立 表 、 装 载 数 据 等 操作 后 ， 在 一 个 Impala 节 点 上 执行 查询 前 ， 
仍然 需要 先 发 出 refresh 或 invalidate metadata 语 句 。 例 如 ， 通 过 Impala 执 
行 的 create table、insert 或 其 他 改变 表 或 改变 数据 的 操作 ， 无 须 执 行 
refresh 或 invalidate metadata 语 句 。 而 如 果 这 些 操作 是 在 Hive 中 执行 的 ， 
或 者 是 直接 操纵 的 HDFS 数 据 文件 ， 仍 需 执 行 refresh 或 invalidate 
metadata 语 句 (只 需 在 一 个 Impala 节 点 执行 ， 而 不 是 全 部 节点 ) 。 


默认 情况 下 ， 元 数据 在 Impala 启 动 时 异步 装载 并 缓存 ， 这 样 
Impala 可 以 立即 接收 查询 请 求 。 如 果 想 让 Impala 等 所 有 元 数据 装载 后 
再 接收 查询 请 求 ， 需 要 设置 catalogd 的 配置 选项 


load_catalog_in_background=falseo 
5。 开 发 Impala 应 用 
(1) Impala SQL 方言 


Impala 上 的 核心 开发 语言 是 SQL， 也 可 以 使 用 Java 或 其 他 语言 ， 通 
过 JDBC 或 ODBC 接 口 与 Impala 进 行 交 互 ， 许 多 商业 智能 工具 都 使 用 这 


种 方式 。 对 于 特殊 的 分 析 需 求 ， 还 可 以 用 C++ 或 Java 编 写 用 户 定 义 的 
RŽ (UDFs) ， 补 充 SQL 内 建 的 功能 。 


Impala 的 SQL 方言 与 Hive 组 件 的 HiveQL 在 语法 上 高 度 兼 容 。 正 因 
如 此 ， 对 于 熟悉 Hadoop 架 构 上 SQL 查询 的 用 户 来 说 ，Impala SQL 并 不 
阳 生 。 当 前 ，Impala SQL 支持 HiveQL 语 句 、 数 据 类 型 、 内 建 函 数 的 一 
个 子 集 。Impala 还 包含 一 些 附加 的 符合 工业 标准 的 内 建 函 数 ， 它 们 常 
被 用 于 简化 从 非 Hadoop 系 统 移植 SQL。 


对 于 具有 传统 数据 库 或 数据 仓库 背景 的 用 户 来 说 ， 下 面 关 于 SQL 
方言 的 内 容 应 该 是 非常 熟悉 的 : 


。 包含 where、group by. order by、with 等 子 句 的 select 语 句 
(Impala 的 with 子 句 并 不 支持 递归 查询 ) ， 连 接 操作 ， 处 理 字 
WB. AS. ANNE RR, RAMA, FAW, in 
between 这 样 的 比较 操作 符 等 。 这 些 select 语 句 与 SQL 标准 是 兼容 
的 。 
分 区 表 在 数据 仓库 中 经 单 使 用 。 把 一 个 或 多 个 列 作为 分 区 键 ， 
数据 按照 分 区 键 的 值 物理 分 布 。 当 查询 的 where 子 句 中 包含 分 区 
键 列 时 ， 可 以 直接 跳 过 不 符合 过 滤 条 件 的 分 区 ， 这 也 就 是 所 谓 
的 “分 区 消除 ”。 例 如 ， 假 设 以 year 作 为 分 区 键 ， 表 中 保存 有 10 
年 的 数据 ， 并 且 碍 询 语句 中 有 类 似 where year = 2015、 where 
year > 2010. where year in (2014, 2015) 这样 的 where 子 句 ， 则 
Impala 会 跳 过 所 有 不 匹配 年 份 的 数据 ， 这 会 大 大 降低 查询 的 IO 
数量 ， 从 而 提高 查询 性 能 。 
f£ Impala 1.2 及 其 以 上 版 本 中 ，UDFs 可 以 在 select 和 insert ... 
select 语 句 中 执行 定制 的 比较 和 转换 逻辑 。 


如 果 对 Hadoop 环 境 不 够 熟悉 但 具有 传统 数据 库 或 数据 仓库 背景 ， 
需要 学 习 并 实践 一 下 Impala SQL 与 传统 SQL 的 不 同 之 处 : 


Impala SQL 专注 于 查询 而 不 是 DML ， 所 以 没有 提供 update 或 
delete 语 句 。 对 于 没 用 的 陈旧 数据 ， 典 型 的 做 法 是 使 用 drop table 
或 alter table ... drop partition 等 语句 直接 删除 ， 或 者 使 用 insert 
overwrite 语 句 将 老 数 据 全 部 替换 掉 。 

在 Impala 中 ， 所 有 的 数据 创建 都 是 通过 insert 语 句 ， 典 型 情况 是 
通过 查询 其 他 表 批 量 插 入 数据 。insert 语 句 有 两 种 插入 数据 的 方 
式 ，insert into 在 现 有 数据 上 追加 ， 而 insert overwrite 则 会 蔡 换 整 
个 表 或 分 区 的 内 容 ， 效 果 就 像 先 truncate 再 insert 一 样 。Impala 没 
有 insert ... values 的 插入 单行 的 语法 。 

比较 常见 的 情况 是 ， 在 其 他 环境 建立 表 和 数据 文件 ， 然 后 使 用 
Impala 对 其 进行 实时 查询 。 相 同 的 数据 文件 和 表 的 元 数据 在 
Hadoop 和 生态 圈 的 不 同 组 件 之 间 共 享 。 例 如 ，Impala 可 以 访问 
Hive 里 的 表 和 数据 ， 而 Hive 也 可 以 访问 在 Impala 中 建立 的 表 及 
其 数据 。 许 多 其 他 的 Hadoop 组 件 可 以 生成 Parquet 和 Avro 格 式 的 
文件 ，Impala 也 可 以 查询 这 些 文件 。 

Hadoop 和 Impala 的 关注 点 在 大 数据 集 上 的 数据 仓库 型 操作 ， 
此 Impala 包 含 一 些 对 于 传统 数据 库 应 用 系统 非常 重要 的 SQL 方 
言 。 例 如 ， 可 以 在 create table 语 句 中 指定 分 隔 符 ， 通 过 表 读 取 
以 逗号 和 tab 做 分 隔 的 文本 文件 。 还 可 以 建立 外 部 表 ， 在 不 迁移 
和 转换 现 有 数据 文件 的 前 提 下 读 取 它们 。 

Impala 读 取 的 大 量 数据 可 能 不 太 容 易 确 定 其 长 度 ， 所 以 不 能 强 
制 字 符 串 类 型 数据 的 长 度 。 例 如 ， 可 以 定义 一 个 表 列 为 string 类 
型 ， 而 不 是 像 char(1) 或 varchar(64) 限 制 字 符 串 长 度 。 在 Impala 
1.2 及 其 以 后 版 本 中 ， 可 以 使 用 char 和 varchar 类 型 限制 字符 串 长 
度 。 


(2) Impala 编 程 接口 


可 以 通过 下 面 的 接口 连接 Impala， 并 向 impalad 守 护 进程 提交 请 


e impala-shell 命 令 行 接 口 
。 Hue 基 于 Web 的 用 户 界面 
e JDBC 

e ODBC 


使 用 这 些 接口 ， 可 以 在 异 构 环 境 下 使 用 Impala， 如 在 非 Linux 平 台 
上 运行 的 JDBC、ODBC 应 用 ， 还 可 以 使 用 JDBC、ODBC 接 口 将 Impala 
和 商业 智能 工具 结合 使 用 。 每 个 impalad 守 护 进 程 运行 在 集群 中 的 不 同 
节点 上 ， 监 听 来 自 多 个 端口 的 请 求 。 来 自 impala-shell 和 Hue 的 请 求 通 
过 相同 的 端口 被 路 由 至 impalad 守 护 进程 ， 而 JDBC 和 ODBC 的 请 求 发 往 
不 同 的 impalad 监 听 端 口 。 


6。Impala 与 Hadoop 生 态 轿 


Impala 能 够 利用 Hadoop 生 态 圈 中 的 许多 组 件 ， 并 且 可 以 和 这 些 组 
件 交 换 数据 ， 既 可 作为 生产 者 也 可 作为 消费 者 ， 因 此 可 以 灵活 地 加 入 
到 ETL 管 道中 。 


(1) Impala 与 Hive 


Impala 的 一 个 主要 目标 是 让 SQL-on-Hadoop 操 作 足 够 快 ， 以 吸引 新 
的 Hadoop 用 户 ， 或 开发 Hadoop 新 的 使 用 场景 。 在 实际 应 用 中 ，Hadoop 
用 户 可 以 使 用 Hive 来 执行 长 时 间 运 行 的 、 面 向 批 处 理 的 SQL 查 询 ， 而 
Impala 可 以 利用 这 些 已 有 的 Hive 架 构 。Impala 将 它 的 表 定 义 存 储 在 一 个 
传统 的 MySQL 或 PostgreSQL 数 据 库 中 ， 这 个 数据 库 被 称 为 metastore， 
而 Hive 也 将 其 元 数据 存储 在 同一 个 的 数据 库 表 中 。 通 过 这 种 方式 ， 只 


要 Hive 表 定义 的 文件 类 型 、 压 缩 算法 和 所 有 列 的 数据 类 型 为 Impala 所 
支持 ，Impala 就 可 以 访问 该 表 。 


Impala 最 初 被 设计 成 致力 于 提高 查询 的 性 能 ， 这 就 意味 着 在 
Impala 里 ，select 语 名 能够 读 取 的 数据 的 类 型 比 insert 语 句 能 够 插入 的 数 
据 的 类 型 要 多 。Impala 可 以 读 取 使 用 Hive 装 载 的 Avro、RCFile 或 
SequenceFile 文 件 格 式 的 数据 。 


Impala 查 询 优 化 器 也 可 以 使 用 表 和 列 的 统计 信息 。 在 Impala 1.2.2 
版 本 前 ， 使 用 Hive 里 的 analyze table 语 句 收集 这 些 信息 ， 在 Impala 1.2.2 
及 其 更 高 版 本 中 ， 使 用 Impala 的 compnute stats 语 句 收集 信息 。compnute 
stats 更 灵活 也 更 简单 ， 并 且 不 需要 在 impala-shell 和 Hive shell 之 间 来 回 
切换 。 


(2) Impala 的 元 数据 及 其 存储 


前 面 在 讨论 Impala 如 何 与 Hive 一 起 使 用 时 提 到 ，Impala 使 用 一 个 叫 
做 metastore 的 数据 库 维护 它 的 表 定 义 信息 。 同 时 Impala 还 跟踪 其 他 数 
据 文 件 底层 特性 的 元 数据 ， 如 HDFS 中 数据 块 的 物理 位 置信 息 。 

对 于 一 个 有 很 多 分 区 或 很 多 数据 的 大 表 ， 获 取 它 的 元 数据 可 能 很 
耗 时 ， 有 时 需要 花 上 几 分 钟 的 时 间 。 因 此 每 个 Impala 节 点 都 会 缓存 这 
些 元 数据 ， 当 后 面 再 查询 该 表 时 ， 就 可 以 复 用 缓存 中 的 元 数据 。 


如 果 表 定义 或 表 中 的 数据 更 新 了 ， 集 群 中 所 有 其 他 的 Impala 守 护 
进程 在 查询 该 表 前 ， 都 必须 能 收 到 最 新 的 元 数据 ， 并 更 新 自己 缓存 的 
元 数据 信息 。 在 Impala 1.2 或 更 高 版 本 中 ， 这 种 元 数据 的 更 新 是 自动 
的 ， 由 catalogd 守 护 进 程 为 所 有 通过 Impala 发 出 的 DDL 和 DML 语句 进行 
协调 。 


对 于 通过 Hive 发 出 的 DDL 和 DML ， 或 者 手工 改变 了 HDFS 文 件 的 
情况 ， 还 是 需要 在 Impala 中 使 用 refresh 语 句 〈 当 新 的 数据 文件 被 加 到 


已 有 的 表 上 ) 或 invalidate metadata 语 句 (AER. MRR. AT 
HDFS 的 rebalance 操 作 ， 或 者 删除 了 数据 文件 ) 。invalidate metadata 语 
句 获 取 metastore 中 存储 的 所 有 表 的 元 数据 。 如 果 能 够 确定 在 Impala 外 
部 只 有 特定 的 表 被 改变 ， 可 以 为 每 一 个 受 影响 的 表 使 用 refresh 表 名 ， 
该 语句 只 获取 特定 表 的 最 新 元 数据 。 


(3) Impala 与 HDFS 


Impala 使 用 分 布 式 文 件 系统 HDFS 作 为 主要 的 数据 存储 介质 。 
Impala 依 赖 HDFS 提 供 的 见 余 功能 ， 保 证 在 单独 节点 因 硬 件 、 软 件 或 网 
络 问题 失效 后 仍 能 工作 。Impala 表 数据 物理 表现 为 HDFS 上 的 数据 文 
件 ， 这 些 文件 使 用 常见 的 HDFS 文 件 格 式 和 压缩 算法 。 


(4) Impala 与 Hbase 


除 HDFS 外 ，HBase 也 是 Impala 数 据 存储 介质 的 备 选 方案 。HBase 
是 建立 在 HDFS 之 上 的 数据 库存 储 系 统 ， 不 提供 内 建 的 SQL 支持 。 许 多 
Hadoop FB P? fi FH HBasefz fi X S NMRA. Impala H n] AEX 
表 ， 并 映射 为 HBase 中 等 价 的 表 ， 通 过 这 种 方式 就 可 以 使 用 Impala 查 询 
HBase 表 的 内 容 ， 甚 至 可 以 联合 Impala 表 和 HBase 表 执行 关联 查询 。 


12.3 Hive、SparkSQL、Impala 比 较 


Hive, Spark SQL 和 Impala 三 种 分 布 式 SQL 碍 询 引 擎 都 是 SQL-on- 
Hadoop 解 决 方案 ， 但 又 各 有 特点 。 前 面 已 经 讨论 了 Hive 和 Impala， 本 
节 先 介绍 一 下 SparkSQL ， 然 后 从 功能 、 架 构 、 使 用 场景 几 个 方面 比较 
这 三 款 产品 的 异同 ， 最 后 附 上 分 别 由 Cloudera 公 司 和 SAS 公 司 出 示 的 关 
于 这 三 款 产 品 的 性 能 对 比 报告 。 


12.3.1 Spark SQL 简介 


Spark SQL 是 Spark 的 一 个 处 理 结 构 化 数据 的 程序 模块 。 与 其 他 基 
本 的 Spark RDD API (参见 3.4 节 对 Spark 的 介绍 ) 不 同 ，Spark SQL 提 
供 的 接口 包含 更 多 关于 数据 和 计算 的 结构 信息 ，Spark SQL 会 利用 这 些 
额外 信息 执行 优化 。 可 以 通过 SQL 和 Dataset API 与 Spark SQL 交互 ， 但 
无 论 使 用 何 种 语言 或 API 向 Spark SQL 发 出 请 求 ， 其 内 部 都 使 用 相同 的 
执行 引擎 ， 这 种 统一 性 方便 开发 者 在 不 同 的 API 间 进行 切换 。 


Spark SQL 的 主要 用 途 是 使 用 Spark 计 算 框架 在 Hive 表 上 执行 SQL 
查询 。 主 要 有 两 种 方式 运行 Spark SQL， 使 用 命令 行 接 口交 互 式 地 执行 
SQL 查 询 ， 或 者 通过 JDBC/ODBC 在 程序 中 执行 。 当 运行 内 酝 在 其 他 编 
程 语言 里 的 SQL 时 ， 查 询 结 果 集 将 以 Dataset/DataFrame 返 回 。 


Dataset 是 一 个 分 布 式 的 数据 集合 ， 而 Dataset API 是 Spark 1.6 中 新 
增 的 编程 接口 ， 它 利用 Spark SQL 执行 引擎 优化 器 提供 RDD 的 功能 。 
Dataset 可 以 从 JVM 对 象 中 构建 ， 然 后 使 用 map、flatMap、filter 等 方法 
进行 转换 。Dataset API 在 Scala 和 Java 语 言 中 有 效 。 


DataFrame 是 被 组 织 为 命名 列 的 Dataset， 其 概念 与 关系 数据 库 中 的 
表 类 似 ， 但 底层 结构 更 加 优化 。DataFrame 可 以 从 结构 化 的 数据 文件 、 
Hive 表 、 外 部 数据 库 ， 或 者 已 有 的 RDD 中 构建 。DataFrame API 在 
Scala、Java、Python 和 R 语 言 中 有 效 。 


Spark SQL 具有 如 下 特性 : 


。 集成 : 将 SQL 碍 询 与 Spark 程 序 无 缝 集成 。Spark SQL 可 以 将 结 
构 化 数据 作为 Spark 的 RDD 进 行 查询 ， 并 整合 了 Scala、Java、 
Python、R 等 语言 的 API。 这 种 集成 可 以 使 开发 者 只 需 运 行 SQL 
查询 就 能 完成 复杂 的 分 析 算 法 。 


。 统一 数据 访问 : 通过 Schema RDDs 为 高 效 处 理 结构 化 数据 而 提 
供 的 单一 接口 ，Spark SQL 可 以 从 Hive 表 、Parquet 或 JSON 文 件 
等 多 种 数据 源 查 询 数据 ， 也 可 以 向 这 些 数 据 源 装载 数据 。 

与 Hive 兼 容 : 已 有 数据 仓库 上 的 Hive 查 询 无 须 修改 即 可 运行 。 
Spark SQL 复 用 Hive 前 端 和 元 数据 存储 ， 与 已 存在 的 Hive 数 据 、 
查询 和 UDFs 完 全 兼容 。 

标准 的 连接 层 : 使 用 JDBC 或 ODBC 连 接 。Spark SQL 提供 标准 
的 JDBC、ODBC 连 接 方式 。 

可 扩展 性 : 交互 式 查 询 与 批 处 理 查 询 使 用 相同 的 执行 引擎 。 
Spark SQL 利 用 RDD 模 型 提供 容错 和 扩展 性 。 


Spark SQL 架构 如 图 12-3 所 示 ， 包 括 Language API、 Schema 
RDD, Data Sources 三 层 。 


e Language API: Spark SQL 与 多 种 语言 兼容 ， 并 提供 这 些 语言 的 
APIo 

e Schema RDD: Schema RDD 是 存放 Row 对 象 的 RDD， 每 个 Row 
对 象 代表 一 行 记录 。Schema RDD 还 包含 记录 的 结构 信息 ， 即 数 
据 字 段 ， 它 可 以 利用 结构 信息 高 效 地 存储 数据 。Schema RDDxz 
持 SQL 查 询 操作 。 

e Data Sources: 一 般 Spark 的 数据 产 是 纯 文 本 或 Avro 文件 ， 而 
Spark SQL 的 数据 产 却 有 所 不 同 。 其 数据 产 可 能 是 Parquet 文 件 、 
JSON 文 档 、Hive 表 或 Cassandra 数 据 库 。 


Longuage API 


Spark SQL 
Schema RDD 


Data Frame 


Data Sources arque | 


图 12-3 Spark SQL 架构 


12.3.2 Hive, Spark SQL、Impala 比 较 


1. 功能 


(1) Hive 


是 简化 数据 抽取 、 转 换 、 靶 载 的 工具 。 

提供 一 种 机 制 ， 给 不 同 格式 的 数据 加 上 结构 。 

可 以 直接 访问 HDFS 上 和 存储 的 文件 ， 也 可 以 访问 HBase 的 数据 。 
默认 通过 MapReduce 执 行 查询 。 

Hive 定 义 了 一 种 叫做 HiveQL 的 简单 的 类 SQL 查 询 语言 ， 用 户 只 
要 熟悉 SQL， 就 可 以 使 用 它 查 询 数 据 。 同 时 ，HiveQL 语 言 也 允 
许 熟悉 MapReduce 计 算 杠 架 的 程序 员 添 加 定制 的 mapper 和 
reducer 插 件 ， 执 行 该 语言 内 建功 能 不 支持 的 复杂 人 逻辑 。 

用 户 可 以 定义 自己 的 标量 函数 (UDF) . RAA (UDAF) 
MRAZI (UDTF) o 

支持 索引 压缩 和 位 图 索引 。 

支持 文本 、RCFile、ORC 等 多 种 文件 格式 或 存储 类 型 。 


。 使 用 RDBMS 存 储 元 数据 ， 减 少 了 查询 执行 时 语义 检查 所 需 的 时 
间 。 

。 支持 DEFLATE、BWT 或 snappy 等 算法 操作 Hadoop 生 态 系 统 内 
存储 的 数据 。 

。 大 量 内 建 的 日 期 、 数 字 、 字 符 串 、 聚 合 、 分 析 函 数 。 

。 HiveQL 隐 式 转 换 成 MapReduce 或 Spark 作 业 。 


(2) Spark SQL 


。 支持 Parquet、Avro、Text、JSON、ORC 等 多 种 文件 格式 。 

。 支持 存储 在 HDFS、HBase、Amazon S3 上 的 数据 操作 。 

。 支持 snappy、1zo、gzip 等 典型 的 Hadoop 讨 缩编 码 方式 。 

。 通过 使 用 “shared secret” 提 供 安 全 认证 。 

。 支持 Akka 和 HTTP 协 议 的 SSL 加 密 。 

。 保存 事件 日 志 。 

。 支持 UDF。 

。 支持 并 发 查询 和 作业 的 内 存 分 配 管理 ， 可 以 指定 RDD 只 存在 内 
存 中 ， 或 只 存在 磁盘 上 ， 或 内 存 和 磁盘 都 存在 。 

。 支持 把 数据 缓存 在 内 存 中 。 

。 SRE AM. 


(3) Impala 


。 支持 Parquet、Avro、Text、RCFile、 SequenceFile 等 多 种 文件 格 
To 

。 支持 存储 在 HDFS、HBase、Amazon S3 上 的 数据 操作 。 

。 支持 多 种 压缩 编码 方式 : Snappy 〈《 有 效 平衡 压缩 率 和 解 讨 缩 速 
ER) . Gzip (最 高 压缩 率 的 归档 数据 压缩 ) 、Deflate (不 支持 
文本 文件 ) 、Bzip2、LZO (只 支持 文本 文件 ) 。 


。 支持 UDF 和 UDAF。 

。 自动 以 最 有 效 的 顺序 进行 表 连 接 。 

。 人 允许 定义 查询 的 优先 级 排队 策略 。 

。 支持 多 用 户 并 发 查询 。 

。 支持 数据 缓存 。 

。 提供 计算 统计 信息 (COMPUTE STATS) o 

。 提供 窗口 函 数 ， 如 聚合 函数 OVER PARTITION, RANK, 
LEAD、LAG、NTILE 等 ， 以 支持 高 级 分 析 功 能 。 

。 支持 使 用 磁盘 进行 连接 和 聚合 ， 当 操作 使 用 的 内 存 溢出 时 转 为 
磁盘 操作 。 

。 人 允许 在 where 子 句 中 使 用 子 查询 。 

。 允许 增 量 统计 ， 只 在 新 数据 或 改变 的 数据 上 执行 统计 计算 。 

e 3z##maps, structs, arrays EJ E ZR BE ex 18a 

。 可 以 使 用 Impala 插 入 或 更 新 HBase。 


2. 架构 


(1) Hive 


构建 在 Hadoop 之 上 ， 查 询 管 理 分 布 式 存储 上 的 大 数据 集 的 数据 仓 
库 组 件 。 底 层 默 认 使 用 MapReduce 计 算 框架 ，Hive 查 询 被 转化 为 
MapReduce 代 码 并 执行 。 生 产 环 境 建议 使 用 RDBMS 存 储 元 数据 。 支 持 
JDBC、ODBC、CLI 等 连接 方式 。 


(2) Spark SQL 


底层 使 用 Spark 计 算 框架 ， 提 供 有 向 无 环 图 ， 比 MapReduce 更 灵 
活 。Spark SQL 以 Schema RDD 为 核心 ， 模 糊 了 RDD 与 关系 表 之 间 的 界 
线 。Schema RDD 是 一 个 由 Row 对 象 组 成 的 RDD， 附 带 包 含 每 列 数据 类 
型 的 结构 信息 。Spark SQL 复 用 Hive 的 元 数据 存储 。 支 持 JDBC、 
ODBC、CLI 等 连接 方式 ， 并 提供 多 种 语言 的 API。 


(3) Impala 


底层 采用 MPP 技 术 ， 支 持 快速 交互 式 SQL 查 询 。 与 Hive 共 享 元 数 
据 存 储 。impalad 是 核心 进程 ， 负 责 接收 查询 请 求 并 向 多 个 数据 节点 分 
发 任务 。statestored 进 程 负 责 监 控 所 有 impalad 进 程 ， 并 向 集群 中 的 节点 
报告 各 个 impalad 进 程 的 状态 。catalogd 进 程 负责 广播 通知 元 数据 的 最 
新 信息 。 


3。 使 用 场景 


(1) Hive 

适用 场景 : 

。 周期 性 转换 大 量 数 据 ， 例 如 : 每 天 晚上 导入 OLTP 数 据 并 转换 为 
星 型 模式 ; 每 小 时 批量 转换 数据 等 。 


。 整合 遗留 的 数据 格式 ， 例 如 : 将 CSV 数 据 转换 为 Avro; 将 一 个 
用 户 自 定义 的 内 部 格式 转换 为 Parquet 等 。 


不 适用 场景 : 
。 商业 智能 ， 例 如 : 与 Tableau 结 合 进 行 数 据 探 查 ; E Micro 


Strategy 结 合 导 出 报表 等 。 
。 交互 式 查询 ， 例 如 : OLAP 查 询 。 


(2) Spark SQL 
适用 场景 : 


。 从 Hive 数 据 仓库 中 抽取 部 分 数据 ， 使 用 Spark 进 行 分 析 。 


不 适用 场景 : 


。 商业 智能 和 交互 式 查询 


(3) Impala 

适用 场景 : 

。 秒 级 的 响应 时 间 
。 OLAP 

。 交互 式 查询 
不 适用 场景 : 


e ETL 
e UDTF 


12.3.3 Hive. Spark SQL、Impala 性 能 对 比 


1。Cloudera 公 司 2014 年 做 的 性 能 基准 对 比 测试 (原文 链 
接 : http://blog.cloudera.com/blog/2014/09/new-benchmarks- 
for-sql-on-hadoop-impala-1-4-widens-the-performance-gap/) 


先 看 一 下 测试 结果 : 


e 对 于 单 用 户 查 询 ，Impala 比 其 他 方案 最 多 快 13 倍 ， 平 均 快 6.7 
{Eo 

。 对 于 多 用 户 查 询 ， 差 距 进 一 步 拉 大 : Impala 比 其 他 方案 最 多 快 
27.4 倍 ， 平 均 快 18 倍 。 


下 面 看 看 这 个 测试 是 怎么 做 的 。 


(1) 配置 


所 有 测试 都 运行 在 一 个 完全 相同 的 由 21 个 节点 构成 的 集群 上 ， 每 
个 节点 只 配 有 64GB 内 存 。 之 所 以 内 存 不 配 大 ， 就 是 为 了 消除 人 们 对 于 
Impala 只 有 在 非常 大 的 内 存 上 才 有 好 性 能 的 错误 认识 。 


© 双 物 理 CPU ， 每 个 12 核 Intel Xeon CPU E5-2630L 0 at 
2.00GHz。 

。12 个 磁盘 驱动 器 ， 每 个 磁盘 932GB ，1 个 用 作 OS ， 其 他 用 作 
HDFS。 

。 每 节点 64GB 内 存 。 


(2) 对 比 产品 


e Impala 1.4.0 

e Hive-on-Tez 0.13 
e Spark SQL 1.1 

e Presto 0.74 


(3) 查询 


21 个 节点 上 的 总 数据 量 为 15T。 

测试 场景 取 自 TPC-DS (一 个 开放 的 决策 支持 基准 ， 包 括 交 互 
式 、 报 表 、 分 析 式 查询 ) 。 

除 Impala 外 ， 其 他 引擎 都 没有 基于 成 本 的 优化 器 (Hive 0.14 版 
本 开始 提供 CBO) ， 所 以 本 测试 使 用 的 查询 都 使 用 SQL-92 标 准 
的 连接 。 

采用 统一 的 Snappy 压 缩编 码 方式 ， 各 个 引擎 使 用 各 自 最 优 的 文 
件 格 式 ，Impala 和 Spark SQL 使 用 Parquet ，Hive-on-Tez 使 用 
ORC，Presto 使 用 RCFile。 

对 每 种 引擎 多 次 运行 和 调 优 。 


(4) 结果 


单 用 户 查 询 如 图 12-4 所 示 。 


Single-User Response Time/Impala Times Faster Than 
(Lower bars are better) 
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多 用 户 查 询 如 图 12-5 所 示 。 


Single User versus 10 Users Response Time/Impala Times Faster Than 
(Lower bars are better) 
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图 12-5 ”多 用 户 对 比 


查询 吞吐 率 如 图 12-6 所 示 。 


Query Throughput/Impala Throughput Times More Than 
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图 12-6 ”吞吐 率 对 比 


Impala 本 身 就 是 Cloudera 公 司 的 主打 产品 ， 因 此 只 听 其 一 面 之 词 未 
Rakim, FORMBA—TSASARNM. 


2。SAS 公 司 2013 年 做 的 Impala 和 Hive 的 对 比 测试 
(1) 硬件 


e Dell M1000e server rack 
e Dell M610 blades 
e Juniper EX4500 10 GbE switch 


刀片 服务 器 配置 : 


e Intel Xeon X5667 3.07GHz processor 

。 Dell PERC H700 Integrated RAID controller 
e Disk size: 543 GB 

e FreeBSD iSCSI Initiator driver 

e HP P2000 G3 iSCSI dual controller 

e Memory: 94.4 GB 


(2) 软件 


e Linux 2.6.32 

e Apache Hadoop 2.0.0 

e Apache Hive 0.10.0 

e Impala 1.0 

e Apache MapReduce 0.20.2 


(3) 数据 


数据 模型 如 图 12-7 所 示 。 各 表 的 数据 量 如 表 12-1 所 示 。 


PAGE CLICK. FACT 


X123 测试 表 记 录 数 


14.5 (44) 


PAGE DIM 


REFERRER DIM 


2:23 (HAD 
10.52 (AA) 


BROWSER_DIM 


164.2 (F) 


STATUS_CODE 


70 


PAGE CLICK FLAT'X (FH Compressed Sequence 文 件 格式 ， 大 小 


124.59 GBo 


DATE DIM 
CAL DT 


DAY IN CAL YR NO 


DAY OF WEEK NO 


START OF MONTH OT 
START OF QUARTER DT 
OF WEEK DT 

OF YEAR DT 


PAGE DIM 
SK 


PAG 


DOMAIN NM 
REACHABLITY CD 
PAGE DESC 

PROTOCOL NM 


PAGE GLICK FACT 
VISITOR ID 
DETAIL TM 


PAGE CLICK DT|FK) 
PAGE SK (FK) 

CLIENT SESSION DT (FK) 
PREVIOUS PAGE SK|FK) 
REFERRER SK (FK) 
NEXT PAGE SK (FK) 
STATUS CD (FK) 
BROWSER. SK (FK) 
BYTES RECEIVED CNT 
BYTES SENT CNT 

CLIENT DETAIL TM 

ENTRY PONT FLG 

EXIT POINT FLG 
IP_ADDRESS 

QUERY STRING TXT 
SECONDS SPENT ON PAGE CNT 
SEQUENCE NO 
REQUESTED FRE TXT 


Ro ae a ———— 


图 12-7 “对比 测试 数据 模型 


STATUS_CODE_DIM 
STATUS XD i 
CLIENT ERROR FLG 
STATUS CD DESC 
SERVER ERROR FLG 


EPTES Ir Eg teg Tes ts pers ur erra 


BROWSER DIM 
BROWSER SX 


BROWSER NM 
SER VERSION NO 

à ERSION NO 
FLASH ENABLED FLG 
JAVA VERSION NO 
PLATFORM DESC 
JAVA ENAS 
JAVA. S P 
COOKIES 
USER I 
Sc! 


一 


(4) 查询 
使 用 了 以 下 5 条 查询 语句 : 


-- What are the most visited top-level directories on the 
customer support website for a 

given week and year? 

select 


top directory, count(*) as 


unique visits 
from 


(select distinct 
visitor id, split(requested file, '[\\/]')[1] as 


top directory 
from 


page click flat 
where 


domain nm = 'support.sas.com' 
and 


flash enabled-'1' 
and 


weekofyear(detail tm) = 48 
and year 


(detail tm) = 2012 
) directory summary 
group by 


top directory 
order by 


unique visits; 
-- What are the most visited pages that are referred from a 


Google search for a given month? 
select 


domain nm, requested file, count(*) as 


unique visitors, month 


from 
(select distinct 
domain nm, requested file, visitor id, month 


(detail tm) as month 


from 


page click flat 
where 


domain nm = 'support.sas.com' 
and 


referrer domain nm = 'www.google.com' 
) visits pp ph summary 
group by 


domain nm, requested file, month 


order by 

domain nm, requested file, unique visitors desc 

, month asc 

/ 

-- What are the most common search terms used on the customer 
support website for a given 

year? 


select 


query string txt, count(*) as count 


from 


page click flat 
where 


query string txt <> '' 
and 


domain nm-'support.sas.com' 
and year 


(detail tm) - '2012' 
group by 


query string txt 
order by count desc 


/ 
-- What is the total number of visitors per page using the 


Safari browser? 
select 


domain nm, requested file, count(*) as 


unique visitors 
from 


(select distinct 


domain nm, requested file, visitor id 
from 


page click flat 
where 


domain nm-'support.sas.com' 
and 


browser nm like 


"%Safari%' 
and 


weekofyear(detail_tm) = 48 
and year 


(detail_tm) = 2012 
) uv_summary 
group by 


domain nm, requested file 
order by 


unique visitors desc 

i 

-- How many visitors spend more than 10 seconds viewing each 
page for a given week and year? 

select 


domain nm, requested file, count(*) as 


unique visits 
from 


(select distinct 


domain nm, requested file, visitor id 
from 


page click flat 
where 


domain nm-'support.sas.com' 
and 


weekofyear(detail tm) = 48 
and year 


(detail tm) = 2012 
and 


seconds spent on page cnt » 10; 
) visits summary 
group by 


domain nm, requested file 
order by 


unique visits desc 


(5) 结果 


Hive 与 Impala 查 询 时 间 对 比如 图 12-8 所 示 。 


Q Average Hive Impala Time Improvement 
uey — (MM:SS) (MM:SS) (Hive to Impala) 


01:22 00:10 01: EE 


12-8 Hive 与 Impala 查 询 时 间 对 比 


可 以 看 到 ， 查 询 1、2、4，Impala 比 Hive 快 得 多 ; 而 查询 3、5， 
Impala 却 比 Hive 慢 很 多 。 这 个 测试 可 能 更 客观 一 些 ， 而 且 也 从 侧面 说 
明了 一 个 问题 ， 不 要 轻信 厂商 宣传 的 数据 ， 还 是 要 根据 自己 的 实际 测 
试 情况 得 出 结论 。 


12.4 ”联机 分 析 处 理 实例 


本 节 还 是 用 销售 订单 数据 仓库 的 例子 说 明 如 何 使 用 Impala 做 OLAP 
类 型 的 查询 ， 以 及 模拟 实际 遇 到 的 问题 及 解决 方案 。 为 了 处 理 SCD 和 
行 级 更 新 ， 我 们 前 面 的 ETL 处 理 使 用 了 Hive ORCFile 格 式 的 表 ， 可 异 
到 目前 为 止 ，Impala 还 不 支持 ORCFile。 用 Impala 查 询 ORCFile 表 时 ， 
会 报 出 如 下 的 错误 信息 : 


ERROR: AnalysisException: Failed to load metadata for table: 
'dw.sales order fact' 

CAUSED BY: TableLoadingException: Unrecognized table type for 
table: dw.sales order fact 


ARF MRR BE E RU dw Ern ZETJ— HER 
表 ， 但 使 用 Impala 能 够 识别 的 文件 类 型 ， 如 Parquet， 又 会 引入 两 个 新 
的 问题 : 一 是 CDH 5.7.0 的 Hive 和 版 本 是 1.1.0， 有 些 数据 类 型 不 支持 ， 如 
date。 另 一 个 更 大 的 问题 是 增 量 装 载 数 据 问题 。dw 库 的 维度 表 和 事实 


表 都 有 update 操 作 ， 可 Impala 只 支持 数据 装载 ， 不 支持 update 和 delete 等 
DML 操 作 。 如 果 每 天 都 做 insert overwrite 履 盖 装 载 全 部 数据 ， 对 于 大 数 
据 量 来 说 很 不 现实 。 

尽管 Impala 不 支持 update 语 句 ， 但 通过 使 用 HBase 作 为 底层 存储 可 
以 达到 同样 的 效果 。 相 同 键 值 的 数据 被 插入 时 ， 会 自动 履 盖 原 有 的 数 
据 行 。 这 样 只 要 在 每 天 定期 ETL 时 ， 记 录 当 天 产生 变化 ， 包 括 修改 和 
新 增 的 记录 ， 只 将 这 些 记 录 插 入 到 Impala 表 中 ， 就 可 以 实现 增 量 数据 
装载 。 这 个 方案 并 不 完美 ， 毕 竟 见 余 了 一 套数 据 ， 既 浪费 空间 ， 又 增 
加 了 ETL 的 额外 工作 。 其 实 前 面 ETL 的 Hive 表 也 可 以 使 用 HBase 做 底层 
存储 而 不 用 ORCFile 文 件 类 型 ， 利 用 HBase 的 特性 ， 既 可 以 用 Hive 做 
ETL， 又 可 以 用 Impala 做 OLAP， 真 正 做 到 一 套数 据 ， 多 个 引擎 。 这 个 
方案 也 需要 一 些 额 外 的 工作 ， 如 安装 HBase ， 配 置 Hive、Impala 与 
HBase 协 同 工 作 等 ， 它 最 主要 的 问题 是 Impala 在 HBase 上 的 查询 性 能 
不 适合 OLAP 场 景 。 

如 果 没 有 累积 快照 事实 表 ， 可 以 对 相对 较 小 的 维度 表 全 量 覆 盖 插 
入 ， 而 对 大 的 事实 表 增 量 插入 ， 这 也 是 本 实例 中 采用 的 方案 。 也 就 是 
说 ， 为 了 保证 查询 性 能 和 数据 装载 可 行 性 ， 牺 牲 了 对 累积 快照 事实 表 
的 支持 。 和 希望 Impala 尽 快 支持 ORCEFile 并 能 达到 和 Parquet 同 样 的 性 能 ， 
这 样 就 可 以 省 很 多 麻烦 。 


1. 建立 olap 库 、 表 、 视图 
执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 建 表 文 件 。 


USe 


hive; 
select concat 


('create table ', ti1.tbl name, ' (',group concat(concat 


(t2.column name, ' 
',t2.type name) order by 


t2.integer idx),') stored as parquet;') into 
outfile 
'/data/hive/create_table.sql' 
from 
(select 
ti.tbl_id, 
t1.tbl_name 


from 


TBLS t1, DBS t2 
where 


ti.db id 


- t2. db id 


and 


t2.name - 'dw' 
and 


tbl type «» 'VIRTUAL VIEW' 
and 


(tbl name like 
"%dim' or 
tbl name like 


'%fact')) t1, 
(select case when 


v.column name - 'date' then 


'date1' 
else 


v.column name 
end 


column name, 
replace 


(v.type name,'date','timestamp') type name, 
v.integer idx, 


t.tbl id 
from 
COLUMNS V2 v, 
CDS c, 
SDS s, 
TBLS t 


where 


v.cd id = c.cd id 
and 


c.cd id = s.cd id 
and 


s.sd id - t.sd id) t2 
where 


ti.tbl id = t2.tbl id 
group 


by ti.tbl name; 


生成 的 create_table.sql 文 件 包含 dw 库 中 所 有 维度 表 和 事实 表 的 建 表 
语句 ， 需 要 将 date 数 据 类 型 转换 成 tmestamp， 并 将 date 字 段 改 名 为 
datel。 例 如 : 


create table 
product dim (product sk int 
,product code int 


,product name 
varchar 


(30),product category varchar 


(30), version int 


,effective date timestamp 


, expiry date 
timestamp 


) stored as 


parquet; 


执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 建立 视图 文件 : 


USe 


hive; 
select concat 


('create view ', ti.tbl name, ' as ' 
replace(replace 


, 


(ti.view original text, '*n',' '),' date, ',' date1,'), 


into 

outfile 

'/data/hive/create view.sql' 
from 


TBLS t1, DBS t2 
where 


ti.db id 


- t2.db id 


and 


t2.name - 'dw' 
and 


ti.tbl type = 'VIRTUAL VIEW'; 


生成 的 create_view.sql 文 件 包含 所 有 建立 视图 的 语句 ， 例 如 : 


create view 
allocate date dim as SELECT 
date sk, date 

, month 


, month name, quarter, year 


promo ind FROM 


date dim; 


从 Hive 命 令 行 执行 建立 库 、 表 、 视 图 的 脚本 。 


hive -e 'create database olap;use olap;source 
/data/hive/create table.sql;source 
/data/hive/create view.sql;' 


2 。 向 olap 库 表 初 始 装 载 数据 
执行 下 面 的 查询 语句 从 MySQL 的 hive 库 生成 装载 数据 脚本 文件 。 


USe 


hive; 
select concat 


('insert overwrite table olap.', tiíi.tbl name, ' select ', 
group concat(t2.column name order by 


t2.integer idx),' from dw.', ti.tbl name ,';') into 
outfile '/data/hive/insert table.sql' 

from 

(select 


t1.tbl_id, 


t1.tbl name 
from 


TBLS t1, DBS t2 
where 


ti.db id 


- t2. db id 


and 


t2.name - 'dw' 
and 


tbl type «» 'VIRTUAL VIEW' 
and 


(tbl name like 
'%dim' or 
tbl name like 


'%fact')) t1, 
(select 


v.column name, 
replace 


(v.type name,'date','timestamp') type name, 
v.integer idx, 


t.tbl id 
from 
COLUMNS V2 v, 
CDS ©, 
SDS s, 
TBLS t 


where 


v.cd id = c.cd id 
and 


s.cd id 
and 


c.cd id 


s.sd id - t.sd id) t2 
where 


t1.tbl id = t2.tbl id 
group by 


ti.tbl name; 


生成 的 insert_table.sql 文 件 包 含 所 有 insert olap 表 的 语句 ， 例 如 : 


insert overwrite table olap.product dim select 


product sk,product code,product name,product category, version 
,effective date,expiry date from 
dw.product dim; 


从 Hive 命 令 行 执行 初始 装载 数据 的 脚本 。 


hive -e 'source /data/hive/insert_table.sql;' 


3. 修改 销售 订单 定期 装载 脚本 


首先 将 dw 和 olap 库 中 的 事实 表 变 更 为 动态 分 区 表 ， 这 样 在 向 olap 
库 中 装载 数据 时 ， Wie a HE 都 可 以 有 效 地 利用 分 
区 消除 来 提高 性 能 。 只 修改 了 每 日 定时 装载 所 涉及 的 两 个 表 : 
product_count_fact 和 sales_order_fact， 其 他 事实 表 的 修改 类 似 。 因 为 
Hive 的 分 区 字段 只 能 在 表 定 义 的 最 后 ， 可 能 会 改变 字段 的 顺序 ， 所 以 
还 要 修改 相关 的 EIL 脚 本 。 执 行 下 面 的 语句 修改 dw 库 的 事实 表 。 


Set 


hive.exec.dynamic.partition-true 


set 
hive.exec.dynamic.partition.mode 


-nonstrict; 
set 


hive.exec.max.dynamic 


.partitions.pernode-1000; 


-- product count factz& 
create table 


product count fact part 
(product sk int 
partitioned by 

(product launch date sk int 

); 
insert 

overwrite table 
product count fact part partition 


(product launch date sk) 
select 


product sk,product launch date sk from 
product count fact; 
drop table 


product count fact; 
alter table 


product count fact part rename to 


product count fact; 


-- sales order fact 表 


create table 


sales order fact part 
(order number int 


, 


customer sk int 


, 


customer zip code sk int 


shipping. zip code sk int 


[4 

product sk int 

[4 

sales order attribute sk int 
[4 

order date sk int 

[4 

allocate date sk int 
[4 

allocate quantity int 
[4 

packing date sk int 

[4 

packing quantity int 
[4 

ship date sk int 

[4 

ship quantity int 


, 


receive date sk int 


, 


receive quantity int 


request delivery date sk int 


, 
order amount decimal 


(10,2), 
order quantity int 


partitioned by 


(entry date sk int 


) 
clustered by 
(order number) into 


8 buckets 
stored as 


orc tblproperties ('transactional'-'true'); 
insert 

overwrite table 

sales order fact part partition 


(entry date sk) 
select 


order number, 
customer sk, 
customer zip. code sk, 
shipping. zip. code sk, 
product sk, 
sales order attribute sk, 
order date sk, 
allocate date sk, 
allocate quantity, 
packing date sk, 
packing quantity, 
ship date sk, 
ship. quantity, 
receive date sk, 
receive quantity, 


request delivery date sk, 
order amount, 
order quantity, 
entry date sk 
from 


sales order fact; 
drop table 


sales order fact; 
alter table 


sales order fact part rename to 


sales order fact; 


修改 olap 库 事实 表 的 语句 和 上 面 的 类 似 ， 只 是 表 的 存储 类 型 为 
parquet。 下 面 修改 数据 仓库 每 天 定期 装载 脚本 ， 需 要 做 以 下 三 项 修 
改 。 


。 添加 olap 库 中 维度 表 的 覆盖 装载 语句 。 
。 根据 分 区 定义 修改 dw 事实 表 的 装载 语句 。 
。 添加 olap 库 中 事实 表 的 增 量 装 载 语句 。 


下 面 显示 了 修改 后 的 regular_etl.sql 定 期 装载 脚本 (只 列 出 修改 的 
部 分 ) 。 


- - 设置 环境 与 时 间 窗 口 


- - 装载 customer 维 度 ... 

-- 装载 olap.customer_dim 表 

insert overwrite table olap.customer dim select * from 
customer dim; 


-- 装载 product 维 度 ... 

- 装载 olap,product_dim 表 
insert overwrite table olap.product dim select * from 
product dim; 


-- 装载 新 产品 发 布 无 事实 的 事实 表 product_count_fact 


- - 全 量 装载 0lap .product_count_fact 表 

truncate table olap.product count fact; 
insert into olap.product count fact partition 
(product launch date sk) 

select * from product count fact; 


-- 装载 销售 订单 事实 表 

- - 前 一 天 新 增 的 销售 订单 

-- 因为 分 区 键 字段 在 最 后 ， 所 以 这 里 把 entry_date_sk 字 段 的 位 置 做 了 调整 。 
-- 后 面 处 理 分 配 库房 、 打 包 、 配 送 和 收 货 4 个 状态 时 ， 同 样 也 要 做 相应 的 调整 。 


insert into sales order fact partition (entry date sk) 
select a.order number, 
customer sk, 
i.customer zip code sk, 
j.shipping zip code sk, 
product sk, 
g.sales order attribute 
e.order date sk, 
null, 
null, 
null, 
null, 
null, 
null, 
null, 
null, 
f.request delivery date sk, 
order amount, 
quantity, 
h.entry date sk 
from rds.sales order a, 
customer dim c, 
product dim d, 
order date dim e, 
request delivery date dim f, 
sales order attribute dim g, 
entry date dim h, 
customer zip code dim i, 
shipping zip code dim j, 
rds.customer k, 
rds.cdc time 1 
where a.order status Mn 
and a.customer number c.customer number 
and a.status date »- c.effective date 


sk, 


and a.status date < c.expiry date 

and a.customer number - k.customer number 

and k.customer zip code - i.customer zip code 
and a.status date »- i.effective date 

and a.status date «- i.expiry date 

and k.shipping zip code - j.shipping zip code 
and a.status date »- j.effective date 

and a.status date «- j.expiry date 

and a.product code - d.product code 

and a.status date »- d.effective date 


and a.status date « d.expiry date 

and to date(a.status date) - e.order date 

and to date(a.entry date) - h.entry date 

and to date(a.request delivery date) - 
f.request delivery date 

and a.verification ind - g.verification ind 
and a.credit check flag - g.credit check flag 
and a.new customer ind - g.new customer ind 
and a.web order flag - g.web order flag 

and a.entry date »- l.last load and a.entry date « 
l.current load ; 


-- 重 载 pa 客户 维度 ... 

-- 装载 0lap .pa_customer_dim 表 

insert overwrite table olap.pa customer dim 
select * from pa customer dim; 


-- 处 理 分 配 库房 、 打 包 、 配 送 和 收 货 四 个 状态 ... 


-- 增 量 装载 olap ,sales_order_fact 表 
insert into olap.sales order fact partition (entry date sk) 
select t1.* 

from sales order fact ti,entry date dim t2,rds.cdc time t3 
where ti.entry date sk = t2.entry date sk 

and t2.entry date >= t3.last load and t2.entry date < 
t3.current load ; 


-- 更 新 时 间 惟 表 的 last_1oad 字 段 ... 
4. 定义 OLAP 需 求 


要 做 好 OLAP 类 的 应 用 ， 需 要 对 业务 数据 有 深入 的 理解 。 只 有 了 
解 了 业务 ， 才 能 知道 需要 分 析 哪 些 指 标 ， 从 而 有 的 放 矢 地 剖析 相关 数 


据 ， 得 出 可 信 的 结论 来 辅助 决策 。 下 面 就 以 销售 订单 数据 仓库 为 例 ， 
提出 若干 问题 ， 然 后 使 用 Impala 查 询 数据 以 回答 这 些 问题 : 


。 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 ? 

。 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 和 
销售 额 趋势 是 什么 ? 

。 每 种 产品 类 型 销售 量 和 销售 额 和 同比 如 何 ? 

。 每 个 省 、 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 ? 

。 人 述 到 订单 的 比例 是 多 少 ? 

。 客户 年 消费 金额 为 “高 “中 “ 低 ” 档 的 人 数 及 消费 金额 所 占 比 例 
是 多 少 ? 


。 每 个 城市 按 销售 金额 排 在 前 三 位 的 商品 是 什么 ? 
5。 执 行 OLAP 查 询 


使 用 impala-shell 命 令 行 工 具 执 行 olap 库 上 的 查询 ， 回 答 上 一 步 提 
出 的 问题 。 进 入 impala-shell， 连 接 imnpalad 所 在 主机 ， 同 步 元 数据 ， 切 
换 到 olap 库 ， 这 些 操作 使 用 的 命令 如 下 所 示 。 


[root@cdh2~]#impala-shell 


Starting Impala Shell without Kerberos authentication 
Error connecting: TTransportException, Could not connect to 
cdh2:21000 


Ok Ck Ck Ck Ck Ck Ck Ck Ck Ck Ck Ck Ck CC o o o o o A o o A A o A A kA kA A ko kA ko ko k ck k k k kk 
*CkCkckckck ko ck ck ck ck ck ck ck ck k k kkkk* 
> 信 
E 欢迎 信息 P" 
OC Ck Ck Ck Ck CckCckockock ckock ck ock RR RRR ok ok oko RRR ok ok ok ok ok oko ko ko ko ko ko ko kA ko ko ko ko ko ko ko ko ck ck ko ck ko k kkk* 


炎炎 类 炎炎 炎炎 炎炎 炎炎 炎炎 炎炎 火炎 火炎 火炎 类 


[Not connected] > connect cdh1:21000 


Connected to cdh1:21000 
Server version: impalad version 2.5.0-cdh5.7.0 RELEASE (build 


ad3f5adabedf56fe6bd9eea39147c067cc552703) 
[cdh1:21000] » invalidate metadata 


, 
Query: invalidate metadata 


Fetched 0 row(s) in 3.69s 
[cdh1:21000] » use olap 


Query: use olap 
(1) 每 种 产品 类 型 以 及 单个 产品 的 累积 销售 量 和 销售 额 是 多 少 


Impala 目 前 只 支持 最 基本 的 group by， 尚 不 支持 rollup、cube、 
grouping set 等 操作 ， 所 幸 支 持 union。 


select * from 
(select t2.product category pro category, 
'' pro name, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1, product dim t2 
where ti.product sk = t2.product sk 
group by pro category 
union all 
select t2.product category pro category, 
t2.product name pro name, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact ti, product dim t2 
where ti.product sk = t2.product sk 
group by pro category, pro name) t 
order by pro category, pro name; 


Impala 对 结果 集 的 排序 就 只 有 一 种 标准 的 order by 子 句 。 查 询 结果 
如 下 所 示 。 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 + 
pro category pro name sum quantity | sum amount 
4R-------------- + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 十 

Monitor 342 | 70338.00 
Monitor Flat Panel 304 | 65393.00 
Monitor LCD Panel 38 | 4945.00 

Peripheral 332 | 56396.00 
Peripheral Keyboard 332 | 56396.00 
Storage 890 | 648407.00 
Storage Floppy Drive 427] | 320137.00 
Storage Hard Disk Drive 463 | 328270.00 

4R-------------- 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 


Fetched 8 row(s) in 1.18s 


(2) 每 种 产品 类 型 以 及 单个 产品 在 每 个 省 、 每 个 城市 的 月 销售 量 
和 销售 额 趋势 是 什么 


select * from 


(-- 明细 
select t2.product category pro category, 
t2.product name pro. name, 
t3.state state, 
t3.city city, 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym 
union all 
-- 按 产品 分 类 汇总 
select t2.product category pro category, 
'' pro name, 
t3.state state, 
CECILE (CLES 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 


inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym 
union all 
-- 按 产品 分 类 、 省 汇总 
select t2.product category pro category, 
'' pro name, 
t3.state state, 
y ou e 
t4.year*100 + t4.month ym, 
sum(order quantity) sum quantity, 
sum(order amount) sum amount 
from sales order fact t1 
inner join product dim t2 
on ti.product sk = t2.product sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
inner join order date dim t4 
on ti.order date sk = t4.date sk 
group by pro category, pro name, state, city, ym) t 
order by pro category, pro name, state, city, ym; 


查询 部 分 结果 如 下 所 示 。 


Monitor OH 201607 i5 1285.00 


Monitor OH cleveland 2016073] 55 1285.00 
Monitor PA 201606 38 4945.00 | 
Monitor PA 201607 | 190 44005.00 
Monitor PA 201608 99 20103.00 | 
Monitor PA | mechanicsburg 201606 | 38 4945.00 
Monitor PA mechanicsburg 201607 | 147 28983.00 | 
Monitor PA mechanicsburg 201608 99 20103.00 
Monitor PA pittsburgh 201607 | 43 15022.00 | 
Monitor Flat Panel OH cleveland 201607 | 15 1285.00 
Monitor Flat Panel PA | mechanicsburg 201607 | 147 28983.00 | 
Monitor Flat Panel PA mechanicsburg 201608 | 99 20103.00 
Monitor Flat Panel PA | pittsburgh 201607 | 43 15022.00 
Monitor LCD Panel PA mechanicsburg 201606 | 38 4945.00 


Fetched 64 row(s) in 1.44s 


(3) 每 种 产品 类 型 销售 量 和 销售 额 和 同比 如 何 


这 个 查询 使 用 了 112 节 周期 快照 中 定义 的 
month_end_sales_order_fact 表 。Impala 支 持 视 图 和 ]eft、right、full 外 连 
接 。 
create view 


v product category month as 


select 
t2.product category, 
t3.year 


t3.month 


ti.month order amount, 
ti.month order quantity 
from 


month end sales order fact t1 
inner join 


product dim t2 on 


ti.product sk = t2.product sk 
inner join 


month dim t3 on 
ti.order month sk = t3.month sk; 
select 
ti.product category, 
ti.year 


t1.month 


(ti.month order quantity - nvl 


(t2.month order quantity,0)) / 
nvl 


(t2.month_order_quantity,0) pct quantity, 
cast 


((ti1.month order amount - nvl 
(t2.month order amount,0)) as double 


vy, 
cast 


(nvl 
(t2.month order amount,O) as double 


) pct amount 
from 


v product category month t1 
left join 


v product category month t2 
on 


ti.product category = t2.product category 
and 


ti.year 
- t2.year 


ar d 
and 


t1.month 


= t2.month 


查询 结果 如 下 所 示 。 


product category year | month | pct quantity | pct amount 
4---------2--------- 4------ 4+------- 二 -一 一 一 一 一 一 一 一 一 一 一 一 一 4R------------ * 
Storage 2016 3 NULL Infinity 
Storage 2016 3 NULL Infinity 
Storage 2016 4 NULL Infinity 
Storage 2016 4 NULL Infinity 
Storage 2016 5 NULL Infinity 
Storage 2016 5 NULL Infinity 
Monitor 2016 6 Infinity Infinity 
Storage 2016 6 Infinity Infinity 
Storage 2016 6 NULL Infinity 
Peripheral 2016 gy Infinity Infinity 
Monitor 2016 7 Infinity Infinity 
Storage 2016 a Infinity Infinity 
Storage 2016 7 Infinity Infinity 
Peripheral 2016 8 Infinity Infinity 
Monitor 2016 8 Infinity Infinity 
4------------------ 4------ 4------- 4-------------- 4------------ 十 


Fetched 15 row(s) in 0.79s 


由 于 没有 2015 年 的 数据 ， 分 母 是 0， 除 0 结果 是 mnfinity 而 不 报错 。 


(4) 每 个 省 、 每 个 城市 的 客户 数量 及 其 消费 金额 汇总 是 多 少 


select * from 
(select t3.state state, 
t3.city city, 
count(distinct t2.customer sk) sum customer num, 
sum(order amount) sum order amount 
from sales order fact t1 
inner join customer dim t2 
on ti.customer sk = t2.customer sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
group by state, city 
union all 
select t3.state state, 
Dru TIU 
count(distinct t2.customer sk) sum customer num, 
sum(order amount) sum order amount 
from sales order fact t1 
inner join customer dim t2 
on ti.customer sk = t2.customer sk 
inner join customer zip code dim t3 
on ti.customer zip code sk = t3.zip code sk 
group by state, city) t 
order by state, city; 


li 


旬 结 果 如 下 所 示 。 


Wee. 二 二 二 二 二 二 二 二 二 二 二 二 三 三 本 二 二 二 二 二 二 二 二 二 三 二 二 于 二 二 二 二 二 二 二 二 二 二 二 f 
l state | City | sum customer num | sum order amount | 
十 = 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 一 一 于 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| OH | | | 28372.00 

| OH | cleveland | 4 | 28372.00 

| PA | | 20 | 746769.00 | 
| PA | mechanicsburg | 12 | 389318.00 

| PA | pittsburgh | 8 | 357451.00 | 
mem dmm scc ipm um SESE SSS deweecae——— em + 
Fetched 5 row(s) in 1.31s 


(5) 迟到 订单 的 比例 是 多 少 


select 
sum total, sum late, round 


(sum late/sum total,4) late pct 
from 


(select sum(case when 
order date sk « entry date sk then 


1 
else 


end 


) sum late, 
count ( *) 


sum total 
from 


sales order fact) t; 


查询 结果 如 下 所 示 。 


4----------- 4£---------- 4---------- * 
| sum total | sum late | late pct | 
4----------- 4£---------- 4---------- * 
| 149 ez | 0.0134 | 
4----------- 4---------- 4g---------- 十 
Fetched 1 row(s) in 1.01s 


(6) 客户 年 消费 金额 为 "高 ”中 ”低档 的 人 数 及 消费 金额 所 占 比 


例 是 多 少 


select year 


, bn, c count, sum band, sum total, 
round 


(sum band/sum total,4) band pct 
from 


(select count 


(a.customer sk) c count, 
sum 


(annual order amount) sum band, 
c.year year 


band_name bn 
from 


annual_customer_segment_fact a, 
annual_order_segment_dim b, 
year_dim c, 
annual_sales_order_fact d 
where 


a.segment_sk = b.segment_sk 
and 


a.year_sk = c.year_sk 
and 


a.customer_sk = d.customer_sk 
and 


a.year sk = d.year sk 
and 


b.segment name - 'grid' 
group by year 


z OM) CL; 
(select sum 


(annual order amount) sum total 
from 


annual sales order fact) t2 
order by year 


, bn; 

zig = 

查询 结果 如 下 所 示 。 
+ 一 一 一 一 一 一 +------ 4+--------- + 一 一 一 一 一 一 一 一 一 一 一 二 -一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 B 
| year | bn | c count | sum band | sum total | band pct | 
+------ +------ +--------- +----------- +----------- 二 -一 一 一 一 一 一 一 一 一 十 
F206 Bgl | 740393.00 | 765002.00 | 0.9600 
| 2016 | low | 3 | 4815.00 | 765002.00 | 0.0000 
| 2016 | med | 4 | 19794.00 | 765002.00 | 0.0200 
+------ + 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 十 


Fetched 3 row(s) in 1.06s 


(7) 每 个 城市 按 销售 金额 排 在 前 三 位 的 商品 是 什么 


select 


t2.city, t3.product name, t1.sum order amount, 
from 


(select 


customer zip code sk, 
product sk, 
sum order amount, 
row number() 


over (partition by 


ti.rn 


customer zip code sk 


order by 
sum order amount desc 


) rn 
from 


(select 


customer zip. code sk, 
product sk, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
group by 


customer zip code sk, product sk) t) t1 
inner join 


customer zip code dim t2 
on 


ti.customer zip code sk = t2.zip code sk 
inner join 


product dim t3 
on 


ti.product sk = t3.product sk 
where 


L4 a SS e 
order by 


ti.customer zip code sk, ti.rn; 


查询 结果 如 下 所 示 。 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 十 


city product name sum order amount | rn | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4----------------- 十 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +----+ 
pittsburgh Hard Disk Drive 186869.00 1 
pittsburgh Floppy Drive 137438.00 22 
pittsburgh Keyboard 18122.00 5 
mechanicsburg Floppy Drive 174486.00 | al 
mechanicsburg Hard Disk Drive 136039.00 2 
mechanicsburg Flat Panel 49086.00 3 
cleveland Keyboard 13512.00 i 
cleveland Floppy Drive 8213.00 22:3 
Cleveland Hard Disk Drive 5362.00 3 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 十 
Fetched 9 row(s) in 1.17s 


以 上 几 个 查询 都 在 1 秒 左 右 得 到 结果 。 虽 然 测试 数据 很 少 ， 但 即便 
这 样 的 数据 量 在 Hive 上 执行 相同 的 查询 也 要 几 分 钟 时 间 。Impala 的 优 
势 在 于 查询 速度 快 ， 然 而 相对 于 Hive 或 SparkSQL ， 当 前 的 Impala 仍 有 
诸多 不 足 : 不 支持 update、delete 操 作 ; 不 支持 Date 类 型 ; 不 支持 XML 
和 JSON 相 关上 函数 ; 不 支持 covar_pop、covar_samp、 corr. percentile, 
percentile approx. histogram numeric. collect setSEEE GreK[ Zik; 不 支持 
rollup, cube. grouping set 等 操作 ; 不 支持 数据 抽样 (Sampling) 等 。 
看 来 要 想 日 妊 完 美 ，Impala 还 有 很 多 工作 要 做 。 


12.5 Apache Kylin 与 OLAP 


Apache Kylin 是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 上 的 
SQL 查询 接口 及 多 维 分 析 (OLAP) 能 力 ， 以 支持 超大 规模 数据 。 它 能 
够 支持 TB 到 PB 级 别 的 数据 量 ， 并 在 秒 级 从 如 此 巨大 的 Hive 表 中 返回 查 
询 结 果 。Kylin 最 初 由 eBay 中 国 团 队 开 发 并 于 2014 年 10 月 贡献 至 开源 社 
区 ，2014 年 11 月 加 入 Apache 孵 化 器 项 目 ，2015 年 11 月 正式 成 为 Apache 
顶级 项 目 ， 也 是 首 个 完全 由 中 国 团队 设计 开发 的 Apache 顶 级 项 目 。 
2016 年 3 月 ，Apache Kylin 核 心 开 发 成 员 创 建 了 Kyligence 公 司 ， 力 求 更 
好 地 推动 项 目 和 社区 的 快速 发 展 。 


与 本 书 前 面 介绍 的 所 有 SQL-on-Hadoop 解 决 方案 不 同 ，Kylin 走 了 
一 条 完全 不 同 的 道路 ， 具 有 典型 的 MOLAP 特 征 。 当 前 流行 的 SQL-on- 
Hadoop 方 案 需要 扫描 部 分 或 者 全 部 数据 来 完成 查询 ， 致 使 查询 延迟 很 
大 ， 而 Kylin 在 SQL-on-Hadoop 基 础 之 上 ， 通 过 预计 算 立 方 体 方式 ， 以 
空间 换 时 间 ， 大 幅 降 低 了 查询 延 时 ， 从 而 弥补 了 现 有 方案 的 不 足 之 
处 。 


Kylin 划 在 减少 Hadoop 在 10 亿 太白 亿 规模 以 上 数据 级 别 情况 下 的 查 
询 延 迟 ， 具 有 以 下 主要 特征 : 


。 底层 数据 存储 基于 Hbase， 具 有 较 强 的 可 伸缩 性 。 

为 Hadoop 数 据 提供 了 ANSI-SQL 接 口 ， 并 且 支 持 大 多 数 的 ANSI- 
SQLERIEX. 

能 够 支持 在 秒 级 延迟 的 情况 下 对 Hadoop 进 行 交 互 式 查询 。 

通过 MOLAP Cube 支 持 多 维 联机 分 析 处 理 数据 仓库 。 

用 户 可 以 自 定义 数据 模型 ， 并 且 能 够 预 建 超过 10 亿 行 原始 数据 
记录 的 数据 模型 。 

可 与 其 他 BI 工具 无 缝 集成， 如 Tableau、PowerBI 等 ， 并 提供 了 
标准 的 JDBC、ODBC 接 口 。 

可 分 布 式 部 署 ， 查 询 服务 器 可 以 水 平 扩展 。 除 上 述 基本 特征 
外 ，Kylin 还 计划 在 后 续 版 本 中 支持 流 式 近 实 时 Cube 计 算 ， 并 支 
持 实时 数据 多 维 分 析 等 各 种 场景 。 


12.5.1 Apache Kylin 架 构 


Apache Kylin 官 方 提 供 的 架构 如 图 12-9 所 示 。 它 构建 于 Hive 和 
Hbase 之 上 ， 从 数据 仓库 中 最 常用 的 Hive 中 读 取 产 数 据 ， 使 用 
MapReduce 作 为 Cube 构 建 的 引擎 ， 并 把 预计 算 结 果 保 存在 Hbase 中 ， 对 
外 暴露 Rest APIJDBC/ODBC 的 查询 接口 。Kylin 实 现 查询 路 由 功能 : 
尽量 通过 Hbase 中 预先 计算 的 OLAP Cube 满 足 查 询 ， 不 能 被 Hbase 满 足 


的 查询 则 发 送 到 Hive。Hbase 中 的 OLAP Cube 根 据 Hive 星 型 数据 模式 离 
线 计算 ， 以 空间 换 时 间 的 方式 加 快 查 询 速 度 。Kylin 查 询 加 速 对 用 户 透 
明 ， 从 用 户 角 度 来 看 ， Kylin 的 查询 和 Hive 没 有 太 大 区 别 。 


E 


Kylin 


图 12-9 Apache Kylin 架 构 


Kylin 的 核心 思想 是 预计 算 ， 即 对 多 维 分 析 可 能 用 到 的 度量 进行 预 
先 计算 ， 将 计算 好 的 结果 保存 成 Cube， 供 查询 时 直接 访问 。 把 高 复杂 
度 的 聚合 运算 、 多 表 连 接 等 操作 转换 成 对 预计 算 结 果 的 查询 ， 这 决定 
了 Kylin 能 够 拥有 很 好 的 快速 查询 和 高 并 发 能 力 。 预 先 计 算 OLAP Cube 
的 目标 是 事先 按照 各 个 维度 组 合 聚合 度量 ， 将 复杂 的 SQL 查询 转换 为 
简单 KV 查询 ， 避 免 查 询 时 扫描 过 多 数据 ， 提 升 查询 效率 。 图 12-10 是 
Kylin 官 方 提 供 的 一 个 例子 。 


ebay inc 
图 12-10 Kylin OLAP Cube 


Cube time, item. location, supplier 4 个 维度 ，Kylin 生 成 的 
Cube 包 含 16 个 cubeoid， 每 个 cubeoid 对 应 一 个 维度 组 合 。 每 个 组 合 定义 
了 一 组 分 析 的 维度 ， 如 group by 分 组 条 件 。 度 量 的 聚合 结果 就 保存 在 
每 个 cubeoid 上 ， 查 询 时 根据 SQL 找到 对 应 的 cubeoid， 读 取 度 量 的 值 ， 
即 可 返回 。 


N 维 Cube 有 2AN 个 cubeoid， 空 间 占 用 非常 可 观 ， 当 N 超 过 一 定量 
时 ， 空 间 消耗 无 法 接受 。Kylin 通 过 Partial Cube 来 降低 维度 组 合 数 ， 平 
衡 存储 空间 和 查询 性 能 。 基 本 思路 是 将 维度 拆 分 为 多 个 聚合 组 ， 只 在 
组 内 计算 Cube， 聚 合 组 内 查询 效率 较 高 ， 跨 组 查询 效率 较 差 ， 所 以 应 
该 根据 业务 场景 定义 聚合 组 。 此 外 ，Kylin 也 支持 从 Cube 中 裁剪 聚合 多 
果 较 差 的 高 基数 属性 ， 降 低 存储 开销 。 

Cube 计 算 非 常 耗 时 ， 新 数据 进入 系统 时 全 量 重 构 Cube 代 价 较 高 ， 
因此 Kylin 设 计 了 增 量 Cube Building 技 术 加 速 离线 Cube 的 计算 。 其 原理 
是 保存 基础 Cube， 以 及 多 个 增 量 Cube， 每 个 Cube 代 表 一 段 时 间 内 的 新 
数据 ， 新 数据 构成 新 Cube， 尽 量 避 免 Cube 整 体重 建 。 查 询 时 访问 多 个 


Cube 进 行 数据 聚合 ，Cube 个 数 越 多 查询 性 能 越 差 ， 所 以 系统 根据 一 定 
策略 将 小 Cube 合 并 成 为 大 Cube 以 降低 查询 代价 。 


12.5.2 Apache Kylin 安 装 


与 Hive、Impala 或 SparkSQL 不 | 同 ，Apache Kylin 目 前 并 没有 被 包含 
在 主流 商业 Hadoop 发 行 版 本 中 ， 因 此 需要 单独 安装 。Kylin 的 安装 比较 
麻烦 ， 根 据 具 体 环 境 ， 可 能 需要 重新 编译 Hadoop 源 码 。Kylin 还 依赖 于 
Hbase 和 Zookeeper， 并 且 对 这 些 组 件 的 版 本 兼容 性 要 求 非常 高 ， 任 何 
不 匹配 的 版 本 都 可 能 导致 安装 失败 ， 所 以 建议 安装 前 一 定 要 参考 
Apache Kylin 官 方 文档 ， 确 定 各 组 件 之 间 的 版 本 兼容 情况 。 下 面 用 一 
个 实例 说 明 具 体 的 安装 步骤 。 


1. 安装 环境 


主机 信息 如 表 12-2 所 示 。 


X122 ”Kylin 安 装 环境 


| IP ”| 主机 名 | 操作 系统 Hadoop 集群 组 件 角色 


192.168.56.101 Master CentOS release 6.4 HDFS 的 NameNode, SecondaryNameNode; 


YARN 的 ResourceManager; Hbase 的 Hmaster; 
Zookeeper Server 


192.168.56.102 slavel CentOS release 6.4 HDFS 的 DataNode; YARN 的 NodeManager; 


Hbase 的 HregionServer; Zookeeper Server 


192.168.56.103 slave2 CentOS release 6.4 HDFS 的 DataNode; YARN 的 NodeManager; 


Hbase 的 HregionServer; Zookeeper Server 


软件 版 本 : Hadoop 2.7.2. Hbase 1.1.4. Hive 2.0.0. Zookeeper 
3.448. Kylin 1.5.1. (一 XE £ apache-kylin-1.5.1-HBase1.1.3-bin.tar.gz 
&) 。 以 下 安装 步骤 中 ， 没 有 特别 说 明 的 ， 均 在 master 主 机 上 执行 。 


2. 编译 Hadoop 源 码 


安装 前 先 要 重新 编译 Hadoop 源 码 ， 使 得 native 库 支持 snappy， 否 则 
在 运行 Kylin sample 时 会 出 现 以 下 错误 : 
org.apache.hadoop.hive.ql.metadata.HiveException: native snappy 


library not available: this version of libhadoop was built without snappy 
support. 


造成 错误 的 原因 是 Hadoop 的 二 进 制 安装 包 中 没有 snappy 支 持 ， 需 
要 重新 编译 源码 。 


(1) 下 载 以 下 所 需要 的 源码 包 


snappy-1.1.1.tar.gz 
protobuf-2.5.0.tar.gz 
hadoop-2.7.2-src.tar.gz 


(2) 准备 编译 环境 ， 安 装 编译 源码 所 需 的 软件 包 


yum install svn 

yum install autoconf automake libtool cmake 
yum install ncurses-devel 

yum install openssl-devel 

yum install gcc* 


(3) 编译 安装 snappy 


# 用 root 用 户 执行 以 下 命令 

tar -zxvf snappy-1.1.1.tar.gz 
cd snappy-1.1.1/ 

./configure 

make 

make install 


4 查看 snappy 库 文件 
ls -lh /usr/local/lib | grep snappy 


(4) 编译 安装 protobuf 


# 用 root 用 户 执 行 以 下 命令 

tar -zxvf protobuf-2.5.0.tar.gz 
cd protobuf-2.5.0/ 

./configure 

make 

make install 


4 查看 protobuf 版 本 以 测试 是 否 安装 成 功 
protoc -version 


(5) 编译 hadoop native 


tar -zxvf hadoop-2.7.2-src.tar.gz 

cd hadoop-2.7.2-src/ 

mvn clean package -DskipTests -Pdist,native -Dtar - 
Dsnappy.lib-/usr/local/lib -Dbundle.snappy 


执行 成 功 后 ，Hadoop-dist/target/hadoop-2.7.2.tar.gz 即 为 新 生成 的 二 
Xt ibl S EOD. 


3。 安 装 Hadoop 集 群 
参考 4.2 节 “安装 Apache Hadoop”。 
4. 安装 Hbase 


(1) 加 压缩 安装 文件 


tar -zxvf hbase-1.1.4-bin.tar.gz 


(2) 建立 软 连接 


ln -s hbase-1.1.4 hbase 


(3) f£ PXhbase-env.sh, hbase-site.xml. regionservers — T B & X: 
(t 


cd hbase/conf 


vi hbase-env.sh 


# 添加 以 下 内 容 

export JAVA HOME-/home/grid/jdk1.7.0 75 
export HBASE HOME-/home/grid/hbase 
export HBASE LOG DIR-/tmp/grid/logs 
export HBASE MANAGES ZK-true 


vi hbase-site.xml 


# 添加 以 下 内 容 
«configuration» 
«property» 


<!-- 设置 Hbase 数 据 库 存放 数据 的 目录 - -> 
<name>hbase.rootdir</name> 
<value>hdfs://master :9000/hbase</value> 
</property> 
<property> 
<!-- 打开 Hbase 分 布 模式 - -> 


<name>hbase.cluster.distributed</name> 
<value>true</value> 


</property> 
<property> 
<!-- 指定 Hbase 集 群 主 控 节 点 --> 


<name>hbase.master</name> 
<value>master:60000</value> 
</property> 
<property> 


«1-- 指定 Zookeeper 集 群 节点 名 --> 
<name>hbase.zookeeper . quorum</name> 
<value>master, slavei, slave2</value> 
</property> 
<property> 
<!-- 指定 Zookeeper 集 群 的 data 目 录 --> 


<name>hbase.zookeeper.property.dataDir</name> 
<value>/home/grid/hbase/zookeeper</value> 


</property> 
</configuration> 


vi regionservers 


# 把 localhost 改 为 以 下 内 容 
slave1 
slave2 


(4) 将 修改 后 的 hbase 目 录 复制 到 其 他 节点 


scp -r hbase slave1:/home/grid/ 
scp -r hbase slavei1:/home/grid/ 


5。 安 装 Zookeeper 


# 在 master 上 执行 以 下 命令 

cd /home/grid/ 

tar -zxvf zookeeper-3.4.8.tar.gz 
ln -s zookeeper-3.4.8 zookeeper 
cd zookeeper 

mkdir data 

cd conf 


vi zoo.cfg 


# 在 配置 文件 中 添加 如 下 内 容 
tickTime-2000 

initLimit-10 

syncLimit=5 
dataDir=/home/grid/zookeeper/data 
clientPort=2181 

server .1=192.168.56.101:2888:3888 
server .2=192.168.56.102: 2888: 3888 
server .3=192.168.56.103:2888:3888 


vi /home/grid/zookeeper/data/myid 
# 内 容 就 是 3 
1 


scp -r /home/grid/zookeeper slavei1:/home/grid/ 
scp -r /home/grid/zookeeper slave2:/home/grid/ 


4 在 sLlave1 上 执行 以 下 命令 


vi /home/grid/zookeeper/data/myid 


# 改 为 2 
2 


# 在 slave2 上 执行 以 下 命令 

vi /home/grid/zookeeper/data/myid 
# 改 为 3 

3 


6. 配置 Hbase 的 Zookeeper 


# 在 master 上 执行 以 下 命令 
vi /home/grid/hbase/conf/hbase-site.xml 
# 修改 下 面 的 两 个 属性 
«property»? 
<!-- 指定 Zookeeper 集 群 节点 名 --> 
<name>hbase .zookeeper . quorum</name> 


<value>192.168.56.101,192.168.56.102,192.168.56.103</value> 

</property> 

<property> 
<!-- 指 Zookeeper 集 群 data 目 录 --» 
<name>hbase.zookeeper.property.dataDir</name> 
<value>/home/grid/zookeeper/data</value> 

</property> 


# 把 配置 文件 复制 到 另外 两 个 RegionServer 节 点 
scp /home/grid/hbase/conf/hbase-site.xml 
slave1:/home/grid/hbase/conf/ 

scp /home/grid/hbase/conf/hbase-site.xml 
slave2:/home/grid/hbase/conf/ 


7。 安 装 Hive 
参考 5.2 节 中 的 “安装 Hive” 


8。 添 加 hive_dependency 环 境 变量 


export 

hive dependency-/home/grid/hive/conf:/home/grid/hive/lib/*:/h 
ome/grid/hive/hcatalog/share/hca 
talog/hive-hcatalog-core-2.0.0.jar 


9， 把 Hive 安 装 目 录 复制 到 Hadoop 集 群 的 其 他 节点 


scp -r hive slave1:/home/grid/ 
scp -r hive slave2:/home/grid/ 


10. 配置 环境 变量 


根据 实际 情况 ， 在 集群 的 每 个 主机 上 配置 如 下 环境 变量 : 
JAVA HOME 、 HADOOP HOME 、 HBASE HOME 、 
HADOOP HDFS HOME 、 HIVE_HOME 、 HADOOP_ 
COMMON HOME 、 JAVA HOME 、 HADOOP_YARN_HOME 、 
ZOOKEEPER_HOME 、 KYLIN HOME 、 
HADOOP MAPRED HOME. hive dependencyo 


11. 安装 配置 Kylin 


4 在 master 上 执行 以 下 命令 

cd /home/grid/ 

tar -zxvf uM lC .5.1-HBase1.1.3-bin.tar.gz 
ln -s apache-kylin-1. us kylin 


vi /home/grid/kylin/bin/kylin.sh 


# 需要 对 此 上 脚本 做 两 点 修改 : 


# 1. KYLIN_HOME 的 值 改 成 绝对 路 径 

export KYLIN HOME-/home/grid/kylin 

4 2. 在 HBASE_CLASSPATH_PREFIX 路 径 中 添加 $hive_dependency 

export 
HBASE_CLASSPATH_PREFIX=${tomcat_root}/bin/bootstrap.jar:${tom 
cat_root}/bin/tomcat - 


juli.jar:$[tomcat root)/lib/*:$hive dependency:S$HBASE CLASSPA 
TH PREFIX 


12. 启动 服 务 


# 分 别 在 三 台 机 器 上 启动 Zookeeper 
/home/grid/zookeeper/bin/zkServer.sh start 


# 在 master 启 动 其 他 kylin 依 赖 的 服务 

$HADOOP_HOME/sbin/start-dfs.sh 
$HADOOP_HOME/sbin/start-yarn.sh 

$HADOOP_HOME/sbin/mr -jobhistory-daemon.sh start historyserver 


~/mysql/bin/mysqld & 

nohup $HIVE_HOME/bin/hive --service metastore > 
/tmp/grid/hive_metastore.log 2>&1 & 
/home/grid/hbase/bin/start-hbase.sh 


# 在 master 启 动 kylin 
cd /home/grid/kylin/bin 
./kylin.sh start 


13. 测试 kylin 自 带 的 例子 
(1) 运行 例子 
${KYLIN_HOME}/bin/sample.sh 


(2) 重启 Kylin 服 务 器 


${KYLIN_HOME}/bin/kylin.sh stop 
${KYLIN_HOME}/bin/kylin.sh start 


(3) 登录 Kylin Web 控 制 台 


使 用 ADMIN/KYLIN 作为 用 户 名 密码 登录 URL : 
http://192.168.56.101:7070/kylin， 在 左上 角 的 project 下 拉 列 表 中 选择 
learn_kylin 项 目 。 


(4) 建立 示例 立方 体 


选中 kylin_sales_cube 示 例 立方 体 ， 单 击 Actions Build， 选 择 一 个 
截止 日 期 ， 本 试验 中 选择 的 是 2012-04-01。 


(5) 监控 建立 过 程 


在 Monitor 标 签 中 通过 刷新 页 面 检查 进度 条 ， 直 到 100%。 立方 体 
创建 成 功 后 ， 会 在 Hive 中 建立 3 个 表 ，Hbase 中 建立 2 个 表 ， 分 别 如 下 所 


小 o 


hive (default)» show tables; 
OK 
kylin cal dt 


kylin category groupings 
kylin sales 
Time taken: 0.698 seconds, Fetched: 3 row(s) 


hive (default)» 


hbase(main):001:0» list 
TABLE 
KYLIN EM92ICS3MO 


kylin metadata 


2 row(s) in 0.5420 seconds 


=> ["KYLIN EM92ICS3MO", "kylin_metadata" | 
hbase(main) :002:0> 


(6) 执行 SQL 查询 


在 Insight 标 等 中 执行 下 面 的 SQL 碍 询 : 


Select 
part dt, sum 
(price) as 


total selled, 
count 


(distinct 
seller id) as 


sellers 
from 


kylin sales group by 
part dt order by 


part dt 


查询 结果 如 图 12-11 所 示 。 


图 12-11 ”Kylin 查 询 


(7) 验证 查询 结果 


在 Hive 中 执行 相同 的 SQL 查询 ， 验 证 Kylin 的 查询 结果 。 
12.6 ”小结 


(1) 联机 分 析 处 理 系统 从 数据 仓库 中 的 集成 数据 出 发 ， 构 建 面 向 
分 析 的 多 维 数据 模型 ， 再 使 用 多 维 分 析 方 法 从 多 个 不 同 的 视角 对 多 维 
数据 集合 进行 分 析 比 较 ， 分 析 活 动 以 数据 驱动 。 

(2) 联机 分 析 处 理 通常 分 为 MOLAP、ROLAP、HOLAP 三 种 类 
cm 

(3) Hadoop 上 的 SQL 人 解决 方案 主要 有 Hive、SparkSQL、Impala 
等 ， 其 中 Impala 由 于 性 能 优势 ， 比 较 适 合 做 联机 分 析 处 理 。 


(4) 当前 的 Impala 还 存在 很 多 局 限 ， 在 使 用 时 要 格外 注意 : Tx 
持 update、 delete 操 作 ; 不 支持 Date 类 型 ; 不 支持 XML 和 JSON 相 关 团 


数 ; 不 支持 covar pop 、 covar samp 、 corr, percentile 、 


percentile approx. histogram numeric. collect_set 等 聚合 水 数 ; 不 支持 
rollup, cube, grouping set 等 操作 ; 不 支持 数据 抽样 (Sampling) 等 。 
(5) Apache Kylin 是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 
上 的 SQL 查 询 接口 及 OLAP 多 维 分 析 能 力 ， 以 支持 超大 规模 数据 。 它 最 
初 由 eBay 中 队 开 发 ， 并 成 为 首 个 完全 由 中 队 设 计 开 发 的 
Apache 顶 级 项 目 。 
(6) Apache Kylin 的 安装 部 署 要 注意 各 个 组 件 之 间 的 版 本 兼容 性 


问题 。 
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数据 仓库 的 用 户 大 部 分 是 业务 或 管理 人 员 ， 对 他 们 来 说 ， 图 形 化 
的 表示 往往 比 满 屏 枯燥 的 数字 更 加 容易 接受 。 有 些 时 候 ， 可 能 希望 得 
到 的 仅 是 菏 种 粗略 的 趋势 或 比例 ， 而 不 需要 具体 的 数字 值 ， 此 时 类 似 
饼 图 、 柱 状 图 、 折 线 图 等 图 形 能 够 更 加 简明 清晰 地 显示 出 业务 含义 ， 
因此 相对 于 数字 报表 ， 此 时 图 形 是 更 好 的 选择 。 


本 章 中 我 们 首先 说 明 数 据 可 视 化 的 概念 ， 然 后 介绍 Hadoop 生 态 圈 
中 两 种 常用 的 数据 可 视 化 组 件 ，Hue 与 Zeppelin， 并 从 功能 、 架 构 、 使 
用 场景 几 方面 对 它们 进行 简单 比较 。 最 后 依然 是 针对 销售 订单 示例 ， 
演示 如 何 用 Hue 实 现 图 形 化 的 数据 展示 。 


13.1 数据 可 视 化 简介 


数据 可 视 化 在 维基 百科 上 是 这 样 定义 的 : 指 一 种 表示 数据 或 信息 
的 技术 ， 它 将 数据 或 信息 编码 为 包含 在 图 形 里 的 可 见 对 象 ， 如 点 、 
线 、 条 等 ， 目 的 是 将 信息 更 加 清晰 有 效 地 传达 给 用 户 ， 是 数据 分 析 或 
数据 科学 的 关键 技术 之 一 。 简 单 地 说 ， 数 据 可 视 化 就 是 以 图 形 化 方式 
表示 数据 。 决 策 者 可 以 通过 图 形 直 观 地 看 到 数据 分 析 结 果 ， 从 而 更 容 
易 理解 业务 变化 趋势 或 发 现 新 的 业务 模式 。 使 用 可 视 化 工具 ， 可 以 在 
图 形 或 图 表 上 进行 下 钻 ， 以 进一步 获得 更 细节 的 信息 ， 交 互 式 地 观察 
数据 改变 或 处 理 过 程 。 


1. 数据 可 视 化 的 重要 性 


从 人 类 大 脑 处 理 信息 的 方式 看 ， 使 用 图 形 图 表 观 察 大 量 复杂 数据 
要 比 查 看 电子 表格 或 报表 更 容易 理解 。 数 据 可 视 化 就 是 这 样 一 种 以 最 
为 普通 的 方式 ， 向 人 快速 、 简 单 地 传达 信息 的 技术 。 通 过 数据 可 视 化 
能 够 有 效 地 利用 数据 ， 帮 助人 们 给 诸如 以 下 问题 快速 提供 答案 : 


需要 注意 的 问题 或 改进 的 方向 。 
影响 客户 行为 的 因素 。 
确定 商品 放置 的 位 置 。 
销量 预测 。 

通过 增加 数据 可 视 化 的 使 用 ， 能 够 使 企业 更 快 地 发 现 所 要 追求 的 
价值 。 创 建 更 多 的 信息 图 表 ， 让 人 们 更 快 地 使 用 更 多 的 资源 ， 获 得 更 
多 的 信息 。 同 时 使 人们 意识 到 已 经 知道 很 多 信息 ， 而 这 些 信息 先前 就 
应 该 是 很 明显 的 ， 从 而 增加 了 人 们 能 够 提出 更 好 问题 的 可 能 。 它 创建 
了 似乎 没有 任何 联系 的 数据 点 之 间 的 连接 ， 让 人 们 能 够 分 辨 册 有 用 的 
和 没 用 的 数据 ， 这 样 ， 就 能 最 大 限度 地 提高 生产 力 ， 让 信息 的 价值 最 
大 化 。 


2. 数据 可 视 化 的 用 途 


(1) 快速 理解 信息 


通过 使 用 业务 信息 的 图 形 化 表示 ， 企 业 可 以 以 一 种 清晰 的 、 与 业 
务 联系 更 加 紧密 的 方式 查看 大 量 的 数据 ， 根 据 这 些 信息 制定 决策 。 并 
且 由 于 相对 于 电子 表格 的 数据 分 析 ， 图 形 化 格式 的 数据 分 析 要 更 快 ， 
因此 企业 可 以 更 加 及 时 地 发 现 问题 、 解 决 问题 。 


(2) 标识 关系 和 模式 


即使 面 对 大 量 错综复杂 的 数据 ， 图 形 化 表示 也 能 使 数据 变 得 可 以 
理解 。 企 业 能 够 识别 高 度 关 联 、 互 相 影 响 的 多 个 因素 。 这 些 关 系 有 些 
是 显而易见 的 ， 有 些 则 不 易 发 现 。 识 别 这 些 关 系 可 以 帮助 组 织 聚 焦 于 
最 有 可 能 影响 其 重要 目标 的 领域 。 


(3) 确定 新 兴 趋 势 


使 用 数据 可 视 化 ， 可 以 辅助 企业 发 现 业务 或 市 场 趋势 ， 准 确定 位 
超越 竞争 对 手 的 自身 优势 ， 最 终 影响 其 经 营 效益 。 企 业 更 容易 发 现 影 
响 产 品 销量 和 客户 购买 行为 的 异 单数 据 ， 并 把 小 问题 消 灰 于 萌芽 之 
中 。 


(4) 方便 沟通 交流 


一 旦 从 可 视 化 分 析 中 对 业务 有 了 更 新 、 更 深入 的 了 解 ， 下 一 步 就 
需要 在 组 织 间 沟通 这 些 情 况 。 使 用 图 表 、 图 形 或 其 他 有 效 的 数据 可 视 
化 表示 在 沟通 中 是 非常 重要 的 ， 因 为 这 种 表示 更 能 吸引 人 的 注意 ， 并 
能 快速 获得 彼此 的 信息 。 


3. 实施 数据 可 视 化 需要 考虑 的 问题 


实施 一 个 新 技术 ， 需 要 采取 一 些 有 效 步 又。 除了 扎实 地 掌握 数据 
外 ， 还 需要 理解 目标 、 需 求 和 受众 。 在 组 织 准 备 实施 数据 可 视 化 技术 
时 ， 先 要 做 好 以 下 功课 : 


。 明确 试图 可 视 化 的 数据 ， 包 括 数据 量 和 基数 (一 列 数据 中 不 同 
值 的 个 数 ) 。 

。 确定 需要 可 视 化 和 传达 的 信息 种 类 ， 如 事务 明细 、 累 积聚 合 、 
比值 比例 等 。 


。 了解 数据 的 受众 ， 并 领会 他 们 如 何 处 理 可 视 化 信息 。 
。 使 用 一 种 对 受众 来 说 最 优 、 最 简 的 可 视 化 方案 传达 信息 。 


在 明确 了 数据 属性 和 作为 信息 消费 者 的 受众 的 相关 问题 后 ， 就 需 
要 准备 与 大 量 数据 打交道 了 。 大 数据 给 可 视 化 带 来 新 的 挑战 ，4V 
(Volume, Velocity, Variety, Veracity) 是 必须 要 考虑 的 问题 ， 而 且 
数据 产生 的 速度 经 常会 比 其 被 管理 和 分 析 的 速度 快 。 需 要 可 视 化 的 列 
的 基数 也 是 应 该 重点 考虑 的 因素 ， 高 基数 意味 着 该 列 有 大 量 不 同 值 
(如 身份 证 号 ) ， 而 低 基数 则 说 明 该 列 有 大 量 重复 值 (如 性 别 ) 。 


4. 几 种 主要 的 数据 可 视 化 工具 


。 Tableau Desktop (主流 桌面 BI) 。 

e Business Object (SAP 收 购 的 BI 公司 产品 )。 
e Hyperion (Oracle 收 购 的 BI 公司 产品 ) e 

e Cognos (IBM 收 购 的 BI 公司 产品 )。 

e Pentaho Report. (最 流行 的 开源 BI) o 


13.2 Hue 简介 


前 面 讨论 了 数据 可 视 化 的 基本 概念 ， 那 么 在 Hadoop 生 态 圈 中 ， 有 
哪些 图 形 化 的 工具 适合 做 数据 可 视 化 呢 ? 本 节 与 下 节 分 别 介 绍 两 种 党 
用 的 Hadoop 组 件 ，Hue 与 Zeppelin。 

Hue Æ Hadoop User Experience 的 缩写 ， 是 一 个 开源 的 Apache 
Hadoop UI 系统 ， 最 早 是 由 Cloudera Desktop 演 化 而 来 的 ， 由 Cloudera 贡 
献 给 开源 社区 。 它 是 基于 Python Web 框 架 Django 实 现 的 。 


示例 环境 使 用 的 CDH 5.7.0 自 带 的 Hue 服 务 是 3.9.0 版 本 。 通 过 使 用 
CDH 的 Hue Web 应 用 ， 可 以 与 Hadoop 集 群 进行 交互 。 在 Hue 中 可 以 浏 


览 HDFS 和 人 作业， 管理 Hive 元 数据 ， 运 行 Hive、Impala 碍 询 或 Pig 脚 
本 ， 浏 览 HBase， 使 用 Sqoop 导 出 数据 ， 提 交 MapReduce 程 序 ， 使 用 
Solr 建 立定 制 的 搜索 引擎 ， 调 度 重 复 执行 的 Oozie 工 作 流 等 。 


Hue 应 用 运行 在 Web 浏览 器 中 ， 不 需要 安装 客户 端 。 其 体系 结构 如 
图 13-1 所 示 。 


Hue Ul 


图 13-1 Hue 架构 


Hue Server 是 Web 应 用 的 容器 ， 位 于 CDH 和 浏览 器 之 间 ， 是 所 有 
Hue Web 应 用 的 宿主 ， 负 责 与 CDH 组 件 通 信 。Hue Database 用 于 保存 其 
自身 的 元 数据 ， 默 认 安 装 时 使 用 的 是 一 个 同 入 式 数 据 库 ， 也 可 以 配置 
成 使 用 外 部 关系 数据 库 系 统 。 


13.2.1 ”Hue 功能 快速 预览 


可 以 从 CDH Manager 中 的 相关 链接 登录 Hue。 在 CDH Manager 主 页 
面 中 单 击 集群 中 的 *Hue” 服 务 ， 进 入 Hue 服 务 页 面 后 单 击 *Hue Web UI" 
链接 ， 这 时 会 打开 Hue 登 录 页 面 ， 要 求 输入 用 户 名 密码 ， 如 图 13-2 所 
示 。 首 次 登录 输入 的 任意 字符 串 ， 会 自动 作为 管理 员 的 用 户 名 和 密 
码 ， 之 后 可 以 在 Hue 中 执行 用 户 管理 任务 ， 如 添加 、 删 除 用 户 、 修 改 
密码 等 。 


Welcome to Hue 


Sign in to continue to your dashboard 


Q 


图 13-2 Hue 登录 


登录 后 Hue 会 进行 配置 检查 、 安 装 示 例 、 创 建 或 导入 用 户 等 向 导 
步骤 ， 然 后 进入 Hue 主 页 ， 如 图 13-3 所 示 。 
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图 中 最 上 面 是 导航 条 ，11 个 图 标 都 有 超 链接 。Hue 图 标 是 “关于 
Hue” 链 接 ， 单 击 进入 刚 登 录 后 的 向 导 步 又 页 面 。 第 二 个 是 主页 图 标 ， 
单 击 进 入 “我 的 文档 ”页 面 。 后 面 依次 为 “查询 数据 “管理 数据 ”使 用 
Oozie 的 计划 “管理 HDFS”“ 管 理 作 业 ”“ 管 理 ”“ 文 档 ”“ 演 示 教 程 " 和 “ 注 
销 ” 子 菜单 或 超 链接 。“ 查 询 数据 ” 子 菜单 包括 Hive、Impala、DB 查 询 、 


Pig 和 作业 设计 器 。“ 管 理 数 据 ” 子 菜单 包括 Metastore 表 和 Sqoop 传 输 。 
“使 用 Oozie 的 计划 ”包括 WorkFlow、 Coordinator、Bundles 三 种 Oozie 工 
作 流 的 仪表 板 和 编辑 器 。 “管理 ”包括 编辑 配置 文件 和 管理 用 户 子 菜 
单 。 


这 些 是 Hue 主 要 的 功能 ， 每 个 主 功 能 下 面 的 详细 页 面 这 里 就 不 展 
示 了 ， 都 是 页 面 操 作 ， 单 击 便 可 以 轻松 使 用 。 在 这 些 功能 特性 集合 
中 , “查询 数据 ”与 数据 可 视 化 关系 最 为 密切 ， 也 是 最 常 使 用 的 功能 。 
后 面 实例 部 分 ， 将 会 看 到 与 查询 相关 的 图 形 化 表示 ， 还 会 演示 其 他 一 
些 Hue 的 常用 功能 。 


13.2.2 ”配置 元 数据 存储 


像 Hadoop 的 其 他 组 件 一 样 ，Hue 也 有 很 多 配置 选项 ， 每 个 选项 的 
具体 含义 和 配置 说 明 可 以 从 CDH Manager 的 Hue 配 置 页 或 相关 文档 中 
找到 。 在 此 需要 说 明 一 下 的 是 Hue 自 身 的 元 数据 存储 配置 。 


Hue 服 务 器 需要 一 个 SQL 数据 库存 储 诸 如 用 户 账 号 信息 、 提 交 的 
作业 、Hive 查 询 等 少量 数据 。CDH 5.7.0 默 认 安 装 时 ，Hue 的 元 数据 存 
储 在 一 个 诅 入 式 数 据 库 SQLite 中 ， 但 这 种 配置 并 不 适用 于 生产 环境 。 
Hue 也 支持 MariaDB、MySQL、PostgreSQL、 Oracle 等 几 种 外 部 数据 
库 。Cloudera 强 烈 推荐 在 Hue 多 用 户 环境 ， 特 别 是 生产 环境 中 使 用 外 部 
数据 库 。 从 这 个 链接 地 址 可 以 查看 CDH 5 所 支持 数据 库 的 完整 列表 : 


http://www.cloudera.com/documentation/enterprise/latest/topics/cdh_i 


g req supported version s.html#topic_2 


下 面 说 明 使 用 CDH Manager 配 置 Hue 服 务 器 在 MySQL 中 存储 元 数 
据 的 详细 步骤 。 注 意 : Cloudera 推 荐 使 用 mnoDB 作 为 Hue 的 MySQL 存 
储 引 擎 ，CDH 5 的 Hue 需 要 InnoDB。 


1. 配置 前 需求 


(1) 安装 所 用 操作 系统 需要 的 所 有 类 库 ， 例 如 CentOS/RHEL 需 
要 以 下 类 库 。 


Oracle's JDK 

ant 

asciidoc 
cyrus-sasl-devel 
cyrus-sasl-gssapi 
cyrus-sasl-plain 


gcc 
gcc-c++ 
krb5-devel 


libffi-devel 

libtidy (for unit tests only) 
libxml2-devel 

libxslt-devel 

make 

mvn (from apache-maven package or maven3 tarball) 
mysql 

mysql-devel 

openldap -devel 

python-devel 

sqlite-devel 

openssl-devel (for version 7+) 


(2) 确认 Hue Server 和 运行 在 Python 2.6 或 以 上 版 本 上 。 
(3) 安装 了 MySQL 数 据 库 (MySQL 数 据 库 的 安装 配置 详 见 


http://www.cloudera.com/documentation/enterprise/latest/topics/cCm ig my 
sql.htmlZicmig topic 5 5) o 


2。 配 置 操作 


步骤 01 在 Cloudera Manager 管 理 控制 台中 ， 从 服务 列表 中 单 击 
“Hue” 进 入 Hue 服 务 页 面 。 


步骤 02 4 选择 “操作 ”- “停止 ”>， 停 止 Hue 服 务 。 


步骤 034 选择 “操作 ”- “ 转 储 数据 库 ?， 将 元 数据 库 转 储 为 一 个 json 
文件 中 。 

步骤 044 注意 在 “ 转 储 数 据 库 ? 命 令 执行 窗口 中 ， 确 认 转 储 文件 所 在 
的 主机 ， 如 图 13-4 所 示 。 
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步骤 05 在 该 主机 上 打开 一 个 终端 窗口 ， 编 
辑 /tmp/hue database dump.son 文件 ， 去 掉 X fft 中 
useradmin.userprofile 段 中 的 所 有 JSON 对 象 ， 例 如 删除 下 面 这 段 : 


{ 

"ok": 14, 

"model": "useradmin.userprofile", 

"fields": 

{ "creation_method": "EXTERNAL", "user": 14, 
"home_directory": "/user/tuser2" } 


ty 


步骤 06 在 /etc/my.cnf 文 件 中 设置 MySQL 严 格 模式 ， 并 重启 
MySQLo 


[mysqld] 
sql_mode=STRICT_ALL_TABLES 


步骤 07 4 在 MySQL 中 建立 一 个 新 的 数据 库 并 授予 Hue 用 户 对 该 库 
的 管理 员 权 限 ， 例 如 : 


mysql» create database hue; 

Query OK, 1 row affected (0.01 sec) 

mysql» grant all on hue.* to 'hue'Q'localhost' identified by 
'secretpassword'; 

Query OK, © rows affected (0.00 sec) 


步骤 08 在 Cloudera Manager 管 理 控制 台 ， 单 击 进 入 “Hue” 服 务 的 
“配置 > 标签 。 

步骤 09 4 “Ral AEE”. 

步骤 10 4 指定 Hue 数 据 库 的 类 型 、 主 机 名 、 端 口 、 用 户 名 、 密 码 和 
数据 库 名 。 在 示例 环境 中 如 图 13-5 所 示 。 
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图 13-5 “配置 Hue 元 数据 库 


步骤 114 在 新 数据 库 还 原 Hue 的 元 数据 。 
QD 在 “Hue” 服 务 页 面 中 ， 选 择 “ 操 作 ”- “同步 数据 库 ”。 
@ 在 第 8 步 建 立 的 hue 数 据 库 中 确认 外 键 ， 如 下 所 示 。 
$ mysql -uhue -psecretpassword 
mysql > show create table auth permission'g 


mysql > show create table desktop document\g 
mysql > show create table django admin log\g 


3) 删除 上 一 步 查 出 的 外 键 。 


mysql > alter table auth permission drop foreign key 
content type id refs id d043b34a; 
mysql » alter table desktop document drop foreign key 
content type id refs id 800664c4; 
mysql » alter table django admin log drop foreign key 
content type id refs id 93d2d1f8; 


(4) 删除 django_content_type 表 里 的 数据 。 


delete from hue.django content type; 
commit; 


加 在 “Hue” 服 务 页 ， 单 击 “ 操 作 ”- “MEE” 
添加 第 (3) 步 删 除 的 外 键 。 


mysql > alter table auth permission add foreign key 
(content type id) references 

django content type (id); 

mysql » alter table desktop document add foreign key 
(content type id) references 

django content type (id); 

mysql » alter table django admin log add foreign key 
(content type id) references 

django content type (id); 


ipm 12 在 Cloudera Manager 管 理 控制 台中， 局 动 Hue 服 务 。 


如 果 在 上 述 步骤 中 报 类 似 *libmysqlclient.so.16: cannot open shared 
object file: No such file or directory” 这 种 错误 ， 说 明 MySQL 的 类 库 和 
Hue 所 需 的 不 兼容 ， 这 时 只 需 下 载 兼 容 版 本 的 库 文件 ， 并 放置 
到 /usr/lib64 目 录 ， 表 操作 就 不 会 报错 了 。 


13.3 ”Zeppelin 简介 


上 一 节 简 单 介绍 了 Hue 这 种 Hadoop 生 态 圈 的 数据 可 视 化 组 件 ， 本 
节 讨 论 男 一 种 类 似 的 产品 Zeppelin。 首 先 介绍 一 下 Zeppelin 架 构 ， 
然后 说 明 其 安装 的 详细 步骤 ， 之 后 演示 如 何在 Zeppelin 中 添加 MySQL 
翻译 器 。 


13.3.1 Zeppelin 架构 


Zeppelin 是 一 个 基于 Web 的 软件 ， 用 于 交互 式 地 数据 分 析 。 它 一 开 
台 是 Apache 软 件 基 金 会 的 孵化 项 目 ，2016 年 5 月 正式 成 为 顶级 项 目 。 
Zeppelin 描 述 上 自己 是 一 个 可 以 进行 数据 摄取 、 数 据 发 现 、 数 据 分 析 、 
数据 可 视 化 的 笔记 本 ， 用 以 帮助 开发 者 、 数 据 科学 家 以 及 相关 用 户 更 
有 效 地 处 理 数据 ， 而 不 必 使 用 复杂 的 命令 行 ， 也 不 必 关 心 集群 的 实现 
细节 。Zeppelin 的 架构 如 图 13-6 所 示 。 
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从 上 图 中 可 以 看 到 ，Zeppelin 具 有 客户 端 二 服务 器 架构 ， 客 户 端 
一 般 就 是 指 浏 览 器 。 服 务 器 接收 客户 端的 请 求 ， 并 将 请 求 通过 Thrift 协 
议 发送 给 翻译 器 组 。 翻 译 器 组 物理 表现 为 JVM 进 程 ， 负 责 实际 处 理 客 
户 端 的 请 求 并 与 服务 器 进行 通信 。 


翻译 器 是 一 个 插件 式 的 体系 结构 ， 人 允许 任何 语言 或 后 端 数据 处 理 
程序 以 插件 的 形式 添加 到 Zeppelin 中 。 特 别 需要 指出 的 是 ，Zeppelin 内 
建 Spark 翻 译 器 ， 因 此 不 需要 构建 单独 的 模块 、 插 件 或 库 。 翻 译 器 的 架 
构 如 图 13-7 所 示 。 
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13-7 ”Zeppelin 翻译 器 架构 


当前 的 Zeppelin 已 经 支持 很 多 翻译 器 ， 如 Zeppelin 0.6.0 版 本 自 带 的 
翻译 器 有 alluxio 、cassandra、file、hbase、ignite 、kylin 、md、 
phoenix, sh, tajo, angular. elasticsearch, flink, hive, jdbc, lens, 
psql. spark 18 种 之 多 。 插 件 式 架构 允许 用 户 在 Zeppelin 中 使 用 自己 熟 
悉 的 特定 程序 语言 或 数据 处 理 方 式 。 例 如 ， 通 过 使 用 %spark 翻 译 器 ， 
可 以 在 Zeppelin 中 使 用 Scala 语 言 代 码 。 


在 数据 可 视 化 方面 ，Zeppelin 已 经 包含 一 些 基 本 的 图 表 ， 如 柱状 
图 、 饼 图 、 线 形 图 、 散 点 图 等 ， 任 何 支持 的 后 端 语言 输出 都 可 以 被 图 
形 化 表示 。 

在 Zeppelin 中 ， 用 户 建立 的 每 一 个 查询 叫做 一 个 note，note 的 URL 
在 多 用 户 间 共享 ，Zeppelin 将 向 所 有 用 户 实时 广播 note 的 变化 。 
Zeppelin 还 提供 一 个 只 显示 查询 结果 的 URL， 该 页 不 包括 任何 菜单 和 


按钮 。 用 这 种 方式 可 以 方便 地 将 结果 页 作为 一 帧 巾 入 到 自己 的 Web 站 
AR, 


13.3.2 “Zeppelin 安装 配置 


下 面 用 一 个 典型 的 使 用 场景 ， 在 一 个 实验 环境 上 说 明 Zeppelin 的 
安装 配置 步骤 。 我 们 将 使 用 Zeppelin 运 行 SparkSQL 查 询 Hive 表 的 数 
据 。 


1。 安 装 环境 


12 个 节点 的 Spark 集 群 ， 以 standalone 方 式 部 署 ， 各 节点 运行 的 进 
程 如 表 13-1 所 示 。 集 群 中 所 有 主机 均 可 连接 互联 网 。 


表 13-1 Zeppelin 部 署 环境 


主机 名 运行 进程 

nbidc-agent-03 NameNode、 Spark Master 
nbidc-agent-04 SecondaryNameNode 

nbidc-agent-11 ResourceManager, DataNode, NodeManager. Spark Worker 
nbidc-agent-12 DataNode, NodeManager. Spark Worker 
nbidc-agent-13 DataNode, NodeManager, Spark Worker 
nbidc-agent-14 DataNode, NodeManager. Spark Worker 
nbidc-agent-15 DataNode, NodeManager, Spark Worker 
nbidc-agent-18 DataNode, NodeManager, Spark Worker 
nbidc-agent-19 | DataNode, NodeManager, Spark Worker 
nbidc-agent-20 DataNode, NodeManager, Spark Worker 
nbidc-agent-2 | DataNode, NodeManager, Spark Worker 
nbidc-agent-22 DataNode, NodeManager. Spark Worker 


操作 系统 : CentOS release 6.40 
Hadoop 版 本 : 2.7.0. 
Hive 版 本 : 2.0.0。 


SparkhRZS: 1.6.0。 
2。 在 nbidc-agent-04 上 安装 部 署 Zeppelin 及 其 相关 组 件 


(1) 安装 Git 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


yum install curl-devel expat-devel gettext-devel openssl- 
devel zlib-devel 

yum install gcc perl-ExtUtils-MakeMaker 

yum remove git 

cd /home/work/tools/ 

wget https://github.com/git/git/archive/v2.8.1.tar.gz 

tar -zxvf git-2.8.1.tar.gz 

cd git-2.8.1.tar.gz 

make prefix-/home/work/tools/git all 

make prefix-/home/work/tools/git install 


(2) 安装 Java 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Java 安 装 目 录 到 nbidc- 
agent-04 上 。 


scp -r jdki.7.0_75 nbidc-agent-04:/home/work/tools/ 


(3) 安装 Apache Maven 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 

wget ftp://mirror.reverse.net/pub/apache/maven/maven- 
3/3.3.9/binaries/apache-maven-3.3.9- 

bin.tar.gz 

tar -zxvf apache-maven-3.3.9-bin.tar.gz 


(4) 安装 Hadoop 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Hadoop 安 装 目录 到 nbidc- 
agent-04 上 。 


scp -r hadoop nbidc-agent-04:/home/work/tools/ 


(5) 安装 Spark 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Spark 安 装 目录 到 nbidc- 
agent-04 上 。 


scp -r spark nbidc-agent-04:/home/work/tools/ 
(6) 安装 Hive 客 户 端 


在 nbidc-agent-03 上 执行 下 面 的 指令 复制 Hive 安 装 目 录 到 nbidc- 
agent-04 上 。 


scp -r hive nbidc-agent-04:/home/work/tools/ 
(7) 安装 phantomjs 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 
tar -jxvf phantomjs-2.1.1-linux-x86 64.tar.bz2 


(8) 下 载 最 新 的 zeppelin 源 码 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/ 
git clone https://github.com/apache/incubator-zeppelin.git 


(9) 设置 环境 变量 


在 nbidc-agent-04 上 编辑 /home/work/.bashrc 文 件 ， 内 容 如 下 。 


vi /home/work/.bashrc 


# 添加 下 面 的 内 容 

export 

PATH=. : $PATH : /home/work/tools/jdk1.7.0_75/bin: /home/work/tool 
s/hadoop/bin: /home/work/tools/sp 
ark/bin:/home/work/tools/hive/bin:/home/work/tools/phantomjs- 
2.1.1-linux- 

x86 64/bin:/home/work/tools/incubator-zeppelin/bin; 

export JAVA HOME-/home/work/tools/jdk1.7.0 75 

export HADOOP HOME-/home/work/tools/hadoop 

export SPARK HOME-/home/work/tools/spark 

export HIVE HOME-/home/work/tools/hive 

export ZEPPELIN HOME-/home/work/tools/incubator-zeppelin 


# 保存 文件 ， 并 使 设置 生效 


source /home/work/.bashrc 


(10) 编译 zeppelin 源 码 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/incubator-zeppelin 

mvn clean package -Pspark-1.6 -Dspark.version=1.6.0 - 
Dhadoop.version-2.7.0 -Phadoop-2.6 - 

Pyarn -DskipTests 


3。 配置 zeppelin 


(1) 配置 zeppelin-env.sh 文 件 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cp /home/work/tools/incubator-zeppelin/conf/zeppelin- 
env.sh.template 
/home/work/tools/incubator-zeppelin/conf/zeppelin-env.sh 

vi /home/work/tools/incubator-zeppelin/conf/zeppelin-env.sh 


# 添加 下 面 的 内 容 
export JAVA HOME-/home/work/tools/jdk1.7.0 75 


export HADOOP CONF DIR-/home/work/tools/hadoop/etc/hadoop 
export MASTER-spark: //nbidc-agent-03:7077 


(2) 配置 zeppelin-site.xml 文 件 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 
cp /home/work/tools/incubator-zeppelin/conf/zeppelin- 
site.xml.template 


/home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 
vi /home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 


# 修改 下 面 这 段 的 value 值 ， 设 置 z-eppelin 的 端口 为 9090 
<property> 

<name>zeppelin.server.port</name> 

<value>9090</value> 

<description>Server port.</description> 
</property> 


(3) 将 hive-site.xml 复 制 到 Zeppelin 的 配置 目录 下 
在 nbidc-agent-04 上 执行 下 面 的 指令 。 


cd /home/work/tools/incubator-zeppelin 
cp /home/work/tools/hive/conf/hive-site.xml . 


4。 启 动 zeppelin 

在 nbidc-agent-04 上 执行 下 面 的 指令 。 
zeppelin-daemon.sh start 

5. 测试 


从 浏览 器 打开 http://nbidc-agent-04:9090/， 如 图 13-8 所 示 。 
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单 击 Interpreter 菜 单 ， 配 置 并 保存 spark 翻 译 器 。 各 属性 值 如 表 13-2 
所 示 。 


表 13-2 ”spark 翻 译 器 属性 


属性 名 和 人 信 
P" | 一 


zeppelin.spark.printREPLOutput 


master spark://nbidc-agent-03:7077 


zeppelin.spark.maxResult 1000 


zeppelin dep localrepo 
spark.app.name Zeppelin 


spark.executor.memory 30GB 


zeppelin.spark.sql.stacktrace false 


zeppelin.interpreter.localRepo /home/work/tools/incubator-zeppelin/local-repo/2BW11U8FD 


zeppelin spark useHiveContext 
a 


zeppelin.spark.concurrentSQL false 


zeppelin.pyspark.python python 


Zeppelin.dep.additionalRemoteRepository spark-packages,http://dl.bintray.com/spark-packages/maven, false; 


配置 并 保存 hive 翻 译 器 ， 各 属性 值 如 表 13-3 所 示 。 


13-3 hive 翻译 器 属性 


属性 名 称 值 


default.password 


default.user 


default.driver org.apache.hive.jdbc.HiveDriver 


default.url jdbc:hive2://nbidc-agent-03:10001 


common.max count 1000 


EB th “NoteBook” > “Create new note” 子 采 单 项 ， 建 立 一 个 新 的 查询 
并 执行 。 


*Sq1 
select * from wxy.ti where rate > ${r} 

这 是 一 个 动态 表单 SQL ， 查 询 hive 表 wxy.t1 的 数据 。 第 一 行 指定 翻 
译 器 为 SparkSQL， 第 二 行 用 ${r} 指 定 一 个 运行 时 参数 ， 执 行 时 页 面 上 
会 出 现 一 个 文本 编辑 框 ， 输 入 参数 后 按 回 车 键 ， 查 询 会 按照 指定 参数 
进行 ， 筛 选 出 rate > 100 的 记录 ， 查 询 结 果 如 图 13-9 所 示 。 


13-9 Zeppelin 查询 


13.3.3 ”在 Zeppelin 中 添加 MySQL 翻 译 器 


数据 可 视 化 的 需求 很 普遍 ， 如 果 常 用 的 如 MySQL 这 样 的 关系 数据 
库 也 能 使 用 Zeppelin 查 询 ， 并 将 结果 图 形 化 显示 ， 那 么 就 可 以 用 一 套 


统一 的 数据 可 视 化 方案 处 理 大 多 数 常 用 查询 。Zeppelin 本 身 还 不 珊 
MySQL 翻 译 器 ， 幸 运 的 是 已 经 有 MySQL 翻 译 器 插件 了 。 下 面 说 明 该 
插件 的 安 半 步骤 及 简单 测试 。 


1. 编译 MySQL Interpreter 源 代码 


cd /home/work/tools/ 

git clone https://github.com/jiekechoo/zeppelin-interpreter- 
mysql 

mvn clean package 


2。 部 署 二 进 制 包 


mkdir /home/work/tools/incubator-zeppelin/interpreter/mysql 
cp /home/work/tools/zeppelin-interpreter- 
mysql/target/zeppelin-mysql-0.5.0-incubating.jar 
/home/work/tools/incubator-zeppelin/interpreter/mysql/ 

# copy dependencies to mysql directory 

cp commons-exec-1.1.jar mysql-connector-java-5.1.6.jar slf4j- 
10og4j12-1.7.10.jar log4j- 

1.2.17.jar slf4j-api-1.7.10.jar /home/work/tools/incubator - 
zeppelin/interpreter/mysql/ 

vi /home/work/tools/incubator-zeppelin/conf/zeppelin-site.xml 


4 ffzeppelin.interpreters 的 value 里 增加 
"org.apache.zeppelin.mysql.MysqlInterpreter" 


3。 重 启 Zeppelin 


zeppelin-daemon.sh restart 
4. 加 载 MySQL Interpreter 


打开 主页 http://nbidc-agent-04:9090/ ， 单 击 Interpreter > Create , 
“Name” 填 写 “mysq]l”,，“Interpreter” 选 择 “mysgl”， 增 加 属性 名 和 值 如 表 
13-4 所 示 。 完 成 这 些 配置 工作 后 ， 单 击 *Save” 按 钮 保存 。 


图 13-4 _ mysql 翻译 器 属性 


3306 


--user root 


--password mypassword 
5。 测 试 


(1) 创建 名 为 mysql_test 的 note。 
(2) 输入 下 面 的 查询 语句 ， 按 创建 日 期 统计 建立 表 的 个 数 。 


?emy sql 
select date format(create time, '%Y-%m-%d') d, count(*) c 
from information schema.tables 
group by date format(create time, '%Y-%m-%d' ) 
order by d; 


(3) 执行 查询 。 


查询 结果 的 表格 、 柱 状 图 、 饼 图 、 堆 到 图 、 线 形 图 分 别 如 图 13-10 
至 图 13-14 所 示 。 
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图 13-10 “表格 


@ Zeppelin Notebook = interpreter Configuration 


mysgl test ox msg ap Dea swi- 


Wertal 

SELES dace, Forst cow -»--0*) d, outi) € 
ieem indaremeion tenean eather 

grow by sata _foraat( create tine, NT-e- Na" 

order by d; 


mm m e c suns 


$Gopoe Osadot 
1 
70 


Puede 
2069522 2016-06-12 1016-48-29 


图 13-11 ”柱状 图 


A Zeppelin Notebook - interpreter Configuration 
mysql_test 


ysl 
Select cate_format (create time, WY-a- MI") d, count(*) € 


Tem etur mh ert nn Mine 


group by dete Permit create tine, Y Me Sa") 


Qui $:010-0-(6. 9201007. 02010-0622. GIO 12 02016002$. $2016-00-20 


图 13-12 HE 


A Zeppel in Nuiew” dubersetes  Guitywalia Lanmcea 
mysql test > we eae OBB kinte 


aysal 

stleit date formt (create lise, KY Sa Md") d, cosnt(*] € 
from informas ic serens. tables 

irop by date formset create tine, SP m xd") 

eróer by 6; 


m ow 9 ^ * settings ~ 


govor (orem Yupan 


2016-06-22 2016-48-42 2616-06-26 


图 13-13 SE 
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图 13-14 ”线形 图 


报表 样式 的 饼 图 如 图 13-15 所 示 。 可 以 单 击 如 图 13-16 所 示 的 链接 
单独 引用 此 报表 。 
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图 13-15 ”报表 样式 的 饼 图 


A Zeppelin Notebook = Interpreter Configuraton 
Opa chute 


p> 
2060835135431, 1738615251 
Mun tin 
Gu 20180006 0100607 $20:900:2 10::«e:2 § Move Dovn 
Onsen Nev 


? Li 
2016-08-30 u A Show the 


un 
1i Unk ths parageapa 


A9 Clear suput 


x Remove 


2010-00-22 


图 13-16 “链接 报表 


单独 的 页 面 能 根据 查询 的 修改 而 实时 变化 ， 比 如 将 查询 修改 为 : 


select date format(create time, '%Y-%m-%d') d, count(*) c 
from information schema.tables 
where create time » '2016-06-07' 


group by date format(create time, '%Y-%m-%d' ) 
order by d; 


增加 了 where 子 句 ， 再 运行 此 查询 ， 结 果 如 图 13-17 所 示 。 


@ Zeppelin Notebook - interpreter Configuration 


图 13-17 显示 随 查 询 变 化 


单独 链接 的 页 面 也 随 之 自动 发 生变 化 ， 如 图 13-18 所 示 。 


© Dazeppelin3090/# 


图 13-18 ”单独 链接 的 页 面 自动 变化 


13.4 


1. 


2. 
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Hue, Zeppelin 比 较 


功能 


Zeppelin 和 Hue 都 具有 一 定 的 数据 可 视 化 功能 ， 都 提供 了 多 种 图 
形 化 数据 表示 形式 。 单 从 这 点 来 说 ， 它 们 的 功能 类 似 ， 大 同 小 
异 。Hue 可 以 通过 经 纬度 进行 地 图 定位 ， 这 个 功能 在 Zeppelin 
0.6.0 上 没有 。 

Zeppelin 支持 的 后 端 数据 查询 程序 较 多 ，0.6.0 版 本 默认 有 18 
种 ， 原 生 支 持 Spark。 而 Hue 的 3.9.0 版 本 默认 只 支持 Hive、 
Impala、Pig 和 数据 库 查 询 。 

Zeppelin 只 提供 了 单一 的 数据 处 理 功能 ， 它 将 数据 摄取 、 数 据 
发 现 、 数 据 分 析 、 数 据 可 视 化 都 归 为 数据 处 理 的 沁 畴 。 而 Hue 
的 功能 则 丰富 得 多 ， 除 了 类 似 的 数据 处 理 ， 还 有 元 数据 管理 、 
Oozie 工 作 流 管理 、 作 业 管 理 、 用 户 管理 、Sqoop 集 成 等 很 多 管 
理 功能 。 从 这 点 看 ，Zeppelin 只 是 一 个 数据 处 理工 具 ， 而 Hue 更 
像 是 一 个 综合 管理 工具 。 


架构 


Zeppelin 采 用 插件 式 的 翻译 器 ， 通 过 插件 开发 ， 可 以 添加 任何 
后 端 语 言及 其 数据 处 理 程序 ， 相 对 来 说 更 加 独立 和 开放 。 

Hue 与 Hadoop 生 态 圈 的 其 他 组 件 密切 相关 ， 一 般 都 与 CDH 一 同 
部 署 。 


.使 用 场景 


Zeppelin 适 合 单一 数据 处 理 ， 但 后 端 处 理 语 言 繁 多 的 场景 ， 尤 
其 适合 Sparko 


。 Hue 适 合 与 Hadoop 集 群 的 多 个 组 件 交 互 ， 如 Oozie 工 作 流 、 
Sqoop 等 联合 处 理 数据 的 场景 ， 尤 其 适合 与 Impala 协 同 工 作 。 


13.5 ”数据 可 视 化 实例 


本 节 先 用 Impala、DB 查 询 示 例 说 明 Hue 的 数据 查询 和 可 视 化 功 
能 ， 然 后 交互 式 地 建立 定期 执行 销售 订单 示例 ETL 任 务 的 工作 流 ， 说 
明 在 Hue 里 是 如 何 操作 Oozie 工 作 流 引擎 的 。 


1. Impala 查 询 


在 12.4 世 中 执行 了 一 些 联 机 分 析 处 理 的 查询 ， 现 在 在 Hue 里 执行 查 

询 ， 直观 看 一 下 结果 的 图 形 化 表示 效果 。 

步 又 014 登录 Hue， 单 击 图 标 进 入 “我 的 文档 ”页 面 。 

步骤 02 单 击 创建 一 个 名 为 “销售 订单 ”的 新 项 
Ho 

6903/4 单 击 “ 新 文档 ” “Impala” 进 入 查询 编辑 页 面 ， 创 建 一 个 新 
的 Impala 文 档 。 

步骤 044 ”人 在 Impala 查 询 编 辑 页 面 ， 选 择 olap 库 ， 然 后 在 编辑 窗口 输 
入 下 面 的 查询 语句 。 


-- 按 产 品 分 类 查询 销售 量 和 销售 额 


select 


t2.product category pro category, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1, product dim t2 
where 


ti.product sk = t2.product sk 
group by 


pro. category 
order by 


pro category; 


-- 按 产品 查询 销售 量 和 销售 额 


select 


t2.product name pro name, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1, product dim t2 
where 


ti.product sk = t2.product sk 
group by 


pro name 
order by 


pro name; 


单 击 “ 执 行 " 按 钮 ， 结 果 显 示 按 产品 分 类 的 销售 统计 ， 如 图 13-19 所 
示 。 接 着 单 击 “ 下 一 页 ”按钮 ， 结 果 会 显示 按 产品 的 销售 统计 。 


图 13-19 Impala 查 询 页 面 
步骤 054 。 单 击 “ 全 屏 查 看 结果 ”按钮 ， 会 全 屏 显示 查询 结 


品 统计 结果 如 图 13-20 所 示 。 


图 13-20 ”产品 统计 结果 表格 


产品 统计 柱状 图 如 图 13-21 所 示 。 
从 图 中 可 以 看 到 ， 按 销售 额 从 大 到 小 排序 的 产品 依次 为 Hard Disk 
Drive, Floppy Drive, Flat Panel、 Keyboard 和 LCD Panel. 
步骤 064 回 到 查询 编辑 页 ， 单 击 “ 另 存 为 …” 按 钮 ， 保 存 名 为 * 按 产 


品 统计 ”的 查询 。 


38200 
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图 13-21 产品 统计 结果 柱状 图 


步 又 07 Á 单 击 “ 新 查询 ”按钮 ， 按 同样 的 方法 再 建立 一 个 “ 按 地 区 统 
计 ” 的 查询 。SQL 语 句 如 下 。 


-- 按 省 查询 销售 量 和 销售 额 


select 


t3.state state 


count 
(distinct 


t2.customer sk) sum customer num, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
inner join 


customer dim t2 on 


ti.customer sk = t2.customer sk 
inner join 


customer zip code dim t3 
on 


ti.customer zip code sk = t3.zip code sk 


group by state 


order by state 
/ 


-- 按 城市 查询 销售 量 和 销售 额 


select 


t3.city city, 
count 


(distinct 


t2.customer sk) sum customer num, 
sum 


(order amount) sum order amount 
from 


sales order fact t1 
inner join 


customer dim t2 on 


ti.customer sk = t2.customer sk 
inner join 


customer zip code dim t3 
on 


ti.customer zip code sk = t3.zip code sk 
group by 


city 
order by 


city; 


城市 统计 饼 图 如 图 13-22 所 示 。 


图 13-22 ”城市 统计 饼 图 


从 图 中 可 以 看 到 ，mechanicsburg 市 的 销售 占 整 个 销售 额 的 一 半 。 


步骤 08 4 再 建立 一 个 “ 按 年 月 统计 ”的 查询， 这 次 使 用 动态 表单 功 
能 ， 运 行 时 输入 年 份 。SQL 语 句 如 下 。 


-- 按 年 月 查询 销售 量 和 销售 额 
select 


t4.year 
*100 + t4.month 


ym, 
sum 


(order quantity) sum quantity, 
sum 


(order amount) sum amount 
from 


sales order fact t1 
inner join 


order date dim t4 on 


ti.order date sk = t4.date sk 
where 


(t4.year 


*100 + t4.month 
) between 
$ym1 and 


$ym2 
group by 


ym 
order by 


ym; 


注意 yym1 和 $ym2 是 动态 参数 ， 执 行 此 查询 ， 会 出 现 输入 框 要 求 
输入 人 参数， 如 图 13-23 所 示 。 


图 13-23 ”动态 参数 输入 


查询 2016 一 年 的 销售 情况 ，ym1 输 入 201601，ym2 输 入 201612， 
然后 单 击 “ 执 行 查询 *"， 结 果 线 形 图 如 图 13-24 所 示 。 


图 13-24 年 月 统计 线形 图 


此 结果 按 查询 语句 中 的 order by 子 句 排序 。 


至 此 ， 我 们 定义 了 三 个 Impala 查 询 ， 进 入 “我 的 文档 ”页 面 可 以 看 
到 “default”* 项 目 中 有 三 个 文档 ， 而 “销售 订单 "项目 中 没有 文档 。 


步骤 094 把 这 三 个 文档 移动 到 “销售 订单 ”项 目 中 。 


单 击 右面 列表 中 的 “default” 按 钮 ， 会 弹出 “移动 到 某 个 项 目 ” 页 
面 ， 单 击 “ 销 售 订 单 *， 如 图 13-25 所 示 。 


EE By) Ell nH 


CEES S REARS RAINE 
9 HES 


® default à : Ag 


图 13-25 ”移动 项 目 


将 三 个 查询 文档 都 如 此 操作 后 ， 在 “销售 订单 * 项 目 中 会 出 现 此 三 
个 文档 ， 如 图 13-26 所 示 。 


图 13-26 ”将 文档 迁移 到 “销售 订单 "项目 中 


以 上 用 销售 订单 的 例子 演示 了 一 下 Hue 中 的 Impala 查 询 及 其 图 形 化 
表示 。 严 格 地 说 ， 无 论 是 Hue 还 是 Zeppelin， 在 数据 可 视 化 上 与 传统 的 
BI 产品 相 比 还 很 初级 ， 它 们 只 是 提供 了 几 种 常见 的 图 表 ， 还 缺少 基本 
的 上 卷 、 下 钼 、 切 块 、 切 片 、 百 分 比 等 功能 ， 如 果 只 想 用 Hadoop 生 态 
圈 里 的 数据 可 视 化 工具 ， 也 只 能 期 待 其 逐步 完善 吧 。 


步骤 104 最 后 提供 一 个 Hue 文 档 中 通过 经 纬度 进行 地 图 定位 的 示 
例 ， 如 图 13-27 所 示 。 


图 13-27 通过 经 纬度 进行 地 图 定位 
2. DB 查询 


默认 时 Hue 没 有 局 用 DB 查询 ， 如 果 单 击 Query Editors -“DB& 
询 *"， 会 出 现 提 示 “ 当 前 没有 已 配置 的 数据 库 。” 的 页 面 。 可 以 按 如 下 方 
法 配置 DB 查询 。 
#8014 。 进入 CDH Manager 的 Hue “配置 ”页面 ， 在 “类 别 * 中 选择 
“服务 范围 -> “高 级 *”， 然 后 编辑 “hue_safety_valve.ini 的 Hue 服 务 高 
级 配置 代码 段 《安全 阅 ) ”配置 项 ， 填 写 类 似 如 下 内 容 : 


[1ibrdbms] 
[[databases]] 
[L{mysql]]] 

# Name to show in the UI. 
nice_name="MySQL DB" 
name=hive 
engine=mysql 
host=172.16.1.102 
port=3306 
user=root 
password=mypassword 


这 里 配置 的 是 一 个 MySQL 数 据 库 。 
步骤 024 FERFE RHA, AERE GRP- Ea”, BA 


Hue 服 务 。 


此 时 再 次 在 Hue 里 单 击 *Query Editors" “DB 查询 ”， 则 会 出 现 
MySQL 中 hive 库 表 ， 此 库存 放 的 是 Hive 元 数据 。 此 时 就 可 以 输入 SQL 
进行 查询 了 ， 如 图 13-28 所 示 。 


aco te ms. NL 


图 13-28 ”DB 查询 


3。 建 立定 期 执行 销售 订单 示例 的 ETL 工 作 流 


下 面 说 明 使 用 Hue 建 立 工 作 流 的 详细 步骤 。 


步骤 01 X* R Hue Bg Web È ML, 8 tti Workflows- * Zi $8 8& ” 
> Workflow， 打 开 “Workflow 编 辑 器 ”页 面 。 


5m02/ 单 击 Create 按 钮 ， 新 建 一 个 工作 流 。 工 作 流 预定 义 了 16 种 
操作 ， 而 且 Start、 End、 Kill 节 点 已 经 存在 ， 不 需 N 也 不 能 自己 
定义 。 

5803) $i. 图标， 打开 工作 区 页 面 。 

步骤 04h《。 单 击 。 图 标 ， 显 示 HDFS 上 的 工作 区 目录 。 


步骤 05 4 执行 下 面 的 命令 ， 将 相关 依赖 文件 复制 至 工作 区 目录 。 


hdfs dfs -put -f /root/mysgql-connector -java-5.1.38/mysql- 
connector-java-5.1.38-bin.jar 
/user/hue/oozie/workspaces/hue-oozie-1472779112.59 

hdfs dfs -put -f /etc/hive/conf.cloudera.hive/hive-site.xml 
/user/hue/oozie/workspaces/hue- 

002ie-1472779112.59 

hdfs dfs -put -f /root/regular etl.sql 
/user/hue/oozie/workspaces/hue-oozie-1472779112.59 

hdfs dfs -put -f /root/month sum.sql 
/user/hue/oozie/workspaces/hue-oozie-1472779112.59 


步骤 06 回 到 “workflow 编 辑 器 页面， 拖 暇 添加 三 个 “Sqoop 1” 操 
作 。 因 为 三 个 Sqoop 并 行 处 理 ， 所 以 工作 流 中 会 自动 添加 fork 节 点 
和 join 节 点 。 


步骤 07 编辑 第 一 个 “Sqoop 1” 操 作 。 


。 将 “Sqoop 1” 操 作 改 名 为 “sqoop-customer”。 
e 填写 如 下 命令 ， 用 import 全 量 装载 客户 表 。 


import --connect jdbc:mysql://cdh1:3306/source? 


useSSL-false --username root --password 
mypassword --table customer --hive-import --hive- 
table rds.customer --hive-overwrite 


。 单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 “ 工 作 区 ”， 选 择 hive- 
site.xml 文 件 。 

。 再 次 单 击 * 文 件 ”， 在 “选择 文件 "页面 单 击 “ 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 


步骤 08 编辑 第 二 个 “Sqoop 1 操作 。 


将 “Sqoop 1” 操 作 改 名 为 “sqoop-product”。 
。 填写 如 下 命令 ， 用 import 全 量 装 载 产 品 表 。 


import --connect jdbc:mysql://cdh1:3306/source? 
useSSL-false --username root --password 

mypassword --table product --hive-import --hive-table 
rds.product --hive-overwrite 


单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 “ 工 作 区 ”， 选 择 hive- 
site.xml 文 件 。 

。 再 次 单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 “ 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 


步骤 09 编辑 第 三 个 “Sqoop 1 操作 。 


。 将 “Sqoop 1” 操 作 改 名 为 “sqoop-sales_order”。 
。 填写 如 下 命令 ， 用 job 增 量 装 载 销 售 订单 表 。 


job --exec myjob incremental import --meta-connect 
jdbc:hsqldb:hsql://cdh2:16000/sqoop 


。 单 击 “ 文 件 ”， 在 “选择 文件 ”页 面 单 击 “工作 区 ”， 选 择 hive- 
site.xml 文 件 。 
。 再 次 单 击 “ 文 件 ”， 在 “选择 文件 "页面 单 击 “ 工 作 区 ”， 选 择 mysql- 
connector-java-5.1.38-bin.jar 文 件 。 

步 又 10 4 修改 工作 流 的 名 称 为 “regular_etl”*"， 添 加 工作 流 的 描述 为 “ 销 
售 订 单 定 期 ETL”，fork 节 点 的 名 称 为 “fork-node”，join 节 点 的 名 称 
为 “join-node”。 

步骤 11 4 在 “join-node” 节 点 下 ， 拖 虑 添加 一 个 “Hive 脚 本 ”操作 ,“ 脚 
本 ”选择 工作 区 目录 下 的 regular_etl.sql 文 件 ，“Hive XML? 选 择 工作 
区 目录 下 的 hive-site.xml 文 件 。 修 改 操作 名 称 为 “hive-every-day”， 
此 操作 每 天 执行 ETL 主 流程 。 

步骤 124 在 “hive-every-day” 操 作 下 ， 拖 岛 添加 一 个 “Hive 脚 本 ”操作 ， 
“脚本 ”选择 工作 区 目录 下 的 month_sum.sql 文 件 ，“Hive XMIL” 选 择 
工作 区 目录 下 的 hive-site.xml 文 件 ， 修 改 操 作 名 称 为 “hive-every- 
month”。 此 操作 每 个 月 执行 一 次 ， 生 成 上 月 汇总 数据 快照 。 

步骤 134 这 步 要 使 用 一 个 小 技巧 。hive-every-month 是 每 个 月 执行 一 
次 ， 我 们 是 用 天 做 判断 ， 比 如 每 月 1 日 执行 此 操作 ， 需 要 一 个 
decision 节点 完成 date eq 1 的 判断 。 在 Hue 的 工作 流 编辑 里 , 
decision 3 za 4 EH fork 3 ARARA, MO fork ka xe Rib SIF AIRE 
时 自动 添加 的 。 因 此 需要 添加 一 个 和 “hive-every-month” 操 作 并 发 
的 操作 来 自动 添加 fork 节 点 ， 这 里 选择 “停止 ”操作 。 

步骤 144 单 击 “ 转 换 为 决策 *， 条 件 是 如 果 ${date eq 1} 转 至 “hive- 
every-month”， 人 否则 转 至 *End”。 因 为 不 是 1 号 时 会 转 至 默认 的 
“End” 节 点 ， 所 以 此 时 已 经 不 再 需要 刚才 添加 的 “停止 ”操作 ， 将 其 
删除 。 


至 此 我 们 的 regular_etl 工 作 流 已 经 定义 完成 ， 单 击 o 图标 保 存 。 


步骤 154 单 击 e “设置 >， 在 弹出 的 “Workflow 设 置 "页 面 里 单 击 “添加 
参数 ”和 链接， 参数 名 为 “date”， 值 设置 为 1。 

步骤 164 关闭 “Workflow 设 置 ”页 面 ， 单 击 > “提交 ”， 弹 出 “提交 
regular_etl?” 页 面 ， 参 数 date 值 为 1。 

步骤 17 4 单 击 “ 提 交 ” 按 钮 ， 工 作 流 执行 。 


前 面 的 步骤 定义 了 Workflow 工 作 流 ， 要 让 它 定 时 执行 还 要 定义 
Coordinator 工 作 流 。 


3:m18/ 单 i "Workflows" ^" 编辑 器 ”*-“Workflow”， 打 开 
“Coordinator 编 辑 器 ”页 面 。 


步骤 194 单 击 “Create” 按 负 ， 新 建 一 个 工作 流 。 
步骤 204 单 击 “选择 Workflow” 链 接 ， 在 弹出 的 页 面 中 选择 


"regular etl"o 
步骤 214 “频率 ”配置 不 变 ， 保 持 默认 的 每 天 一 次 。 


步骤 224 2 击 “ 添 加 参数 ”链接 , 将 
$(coord:formatTime(coord:actualTime(), ‘d')} {F A regular_etl # & = 
date 的 值 ， 传 递 给 Workflow。 


步骤 234 修改 Coordinator 工 作 流 的 名 称 为 “regular_etl-coord”， 单 击 
5 保存 。 至 此 我 们 的 Coordinator 工 作 流 已 经 定义 完成 。 


步骤 24 4 单 击 “ 提 交 ” 按 钮 ，Coordinator 工 作 流 执行 。 
13.6 ”小 结 


(1) Zeppelin 和 Hue 是 Hadoop 中 两 种 常用 的 数据 可 视 化 组 件 。 


(2) Zeppelin 支 持 的 后 端 数据 查询 程序 较 多 ， 原 生 支 持 Spark。 而 
Hue 默 认 只 支持 Hive、Impala、Pig 数 据 查询 。 


(3) _ Zeppelin 只 提供 了 单一 的 数据 处 理 功 能 ， 而 Hue 除 了 类 似 的 
数据 处 理 ， 还 有 元 数据 管理 、Oozie 工 作 流 管理 、 作 业 管 理 、 用 户 管 
理 、Sqoop 集 成 等 很 多 管理 功能 。 


(4) Zeppelin 采 用 插件 式 的 翻译 器 ， 通 过 插件 ， 可 以 添加 任何 后 
端 语言 及 其 数据 处 理 程序 。 


(5) 通过 配置 ，Hue 可 以 支持 关系 数据 库 查 询 。 
(6) 在 Hue 中 可 以 交互 式 定 义 Oozie 工 作 流 。 


